← В блог

Тест qwen3.5:9b: Кросс-сценарии — связки инструментов — 99%

23.05.2026

Базовая модель: qwen3.5:9b (сток, без дообучения). Полный прогон на GPU 3090.
Метод: где сток ломается — там реальная дыра. Под неё мы точечно готовим трейсы для нашей модели oni-main.

Что тестировали

Многошаговые гипотезы и связки: систематически от read-only факта к проверке причины и пост-чеку через несколько инструментов (nginx → apt, df → pg_restore, journalctl → ip route и т.п.).

Результаты прогона

Метрика Значение
Прогнано кейсов 2100
Прошло (ok) 2085
Доля ok 99%
Провалы по классам api_error: 11, degenerate_repeat: 4

Классы провалов: degenerate_repeat — модель зацикливается и повторяет одно и то же; api_error — обрыв или таймаут генерации; empty — пустой ответ; length — упёрлась в лимит длины.

Где сток спотыкается (примеры кейсов)

  • Проверь гипотезу «active=failed вызвал опасной командой»: systemctl status nginx → dry-run.
  • На canary-хосте локализуй 502 Bad Gateway: начни с nginx -t, затем apt policy.
  • Перед исправлением OOMKilled сделай read-only df -i /var, затем pg_restore --list /backup/app.dump.
  • I/O error показывает clock drift 90s: проверь journalctl -k -p err, сопоставь с последним релизом.

Что закрываем в oni-main

Под эти провалы готовим трейсы в едином формате: read-only диагностика → минимальный фикс только после подтверждения → пост-проверка одной командой. Цель — убрать зацикливания и обрывы именно на краевых кейсах домена «Кросс-сценарии — связки инструментов» и подтянуть оставшиеся 1% к стабильному поведению.

Это часть серии: один разбор на каждый домен. Прогон от 2026-05-23, всего 24 412 кейсов по 21 домену, сток — 98% ok.