Benchmarks
Бенчмарки и результаты
Реальные числа вместо маркетинга. Показываем, где Oni силён, а где пока нет.
| Тип задачи | Claude/Codex | Multi-agent after tune | Комментарий |
|---|---|---|---|
| Сгенерировать CRUD | 90 | 85 | Generalist силён |
| Debug 502 по логам | 60 | 92 | Специализация помогает |
| Code review в conventions | 65 | 85 | Знает правила проекта |
| Refactor 15+ файлов | 80 | 25 | Не целевой сценарий |
| Архитектура с нуля | 85 | 50 | Нужен человек |
15/22
Stage 1 SSH tests для oni:base-7.v2.
92%
Honest failures rate: признал падение команды.
0.5–3 сек
Latency без network hop.
Принцип страницы
Не «мы лучшие». А «вот что работает, вот что нет». Для технической аудитории это сильнее.
Воспроизвести бенчмарки