Benchmarks

Бенчмарки и результаты

Реальные числа вместо маркетинга. Показываем, где Oni силён, а где пока нет.

Тип задачи	Claude/Codex	Multi-agent after tune	Комментарий
Сгенерировать CRUD	90	85	Generalist силён
Debug 502 по логам	60	92	Специализация помогает
Code review в conventions	65	85	Знает правила проекта
Refactor 15+ файлов	80	25	Не целевой сценарий
Архитектура с нуля	85	50	Нужен человек

15/22

Stage 1 SSH tests для oni:base-7.v2.

Honest failures rate: признал падение команды.

Latency без network hop.

Не «мы лучшие». А «вот что работает, вот что нет». Для технической аудитории это сильнее.