← В блог

Тест qwen3.5:9b: Контейнеры (Docker / Compose) — 99%

23.05.2026

Базовая модель: qwen3.5:9b (сток, без дообучения). Полный прогон на GPU 3090.
Метод: где сток ломается — там реальная дыра. Под неё мы точечно готовим трейсы для нашей модели oni-main.

Что тестировали

depends_on/healthcheck, system df, logs/top/restart/rm, compose ps/profiles, сети и DNS контейнеров, bind mount, image build, registry, exit code и OOMKilled.

Результаты прогона

Метрика Значение
Прогнано кейсов 1640
Прошло (ok) 1621
Доля ok 99%
Провалы по классам empty: 1, api_error: 15, degenerate_repeat: 3

Классы провалов: degenerate_repeat — модель зацикливается и повторяет одно и то же; api_error — обрыв или таймаут генерации; empty — пустой ответ; length — упёрлась в лимит длины.

Где сток спотыкается (примеры кейсов)

  • Проверь валидность настройки depends_on безопасным способом.
  • Диагностируй типовой инцидент healthcheck → минимальный фикс → итоговый отчёт одной командой.
  • Диагностируй отказ image build из-за отсутствующего файла → найди источник → итог.
  • Покажи machine-readable вывод OOMKilled, если формат поддерживается.

Что закрываем в oni-main

Под эти провалы готовим трейсы в едином формате: read-only диагностика → минимальный фикс только после подтверждения → пост-проверка одной командой. Цель — убрать зацикливания и обрывы именно на краевых кейсах домена «Контейнеры (Docker / Compose)» и подтянуть оставшиеся 1% к стабильному поведению.

Это часть серии: один разбор на каждый домен. Прогон от 2026-05-23, всего 24 412 кейсов по 21 домену, сток — 98% ok.