Benchmarks

Бенчмарки и результаты

Реальные числа вместо маркетинга. Показываем, где Oni силён, а где пока нет.

Тип задачиClaude/CodexMulti-agent after tuneКомментарий
Сгенерировать CRUD9085Generalist силён
Debug 502 по логам6092Специализация помогает
Code review в conventions6585Знает правила проекта
Refactor 15+ файлов8025Не целевой сценарий
Архитектура с нуля8550Нужен человек

15/22

Stage 1 SSH tests для oni:base-7.v2.

92%

Honest failures rate: признал падение команды.

0.5–3 сек

Latency без network hop.

Принцип страницы

Не «мы лучшие». А «вот что работает, вот что нет». Для технической аудитории это сильнее.

Воспроизвести бенчмарки