← В блог

Тест qwen3.5:9b: Планировщики и автоматизация — 97%

23.05.2026

Базовая модель: qwen3.5:9b (сток, без дообучения). Полный прогон на GPU 3090.
Метод: где сток ломается — там реальная дыра. Под неё мы точечно готовим трейсы для нашей модели oni-main.

Что тестировали

crontab/cron.d, cron PATH и логи, systemd timers (Persistent, list-timers), anacron, идемпотентные скрипты, flock.

Результаты прогона

Метрика Значение
Прогнано кейсов 681
Прошло (ok) 663
Доля ok 97%
Провалы по классам api_error: 9, degenerate_repeat: 9

Классы провалов: degenerate_repeat — модель зацикливается и повторяет одно и то же; api_error — обрыв или таймаут генерации; empty — пустой ответ; length — упёрлась в лимит длины.

Где сток спотыкается (примеры кейсов)

  • Покажи production-safe rollback-план для безопасного редактирования crontab с проверкой до и после.
  • Диагностируй деградацию cron PATH по метрикам и логам → минимальный фикс → пост-проверка.
  • Проверь edge-case systemd timer Persistent: симлинк/include/drop-in переопределяет настройку.
  • Сделай композит по пропущенному cron-джобу: read-only факт → минимальный fix → итог.

Что закрываем в oni-main

Под эти провалы готовим трейсы в едином формате: read-only диагностика → минимальный фикс только после подтверждения → пост-проверка одной командой. Цель — убрать зацикливания и обрывы именно на краевых кейсах домена «Планировщики и автоматизация» и подтянуть оставшиеся 3% к стабильному поведению.

Это часть серии: один разбор на каждый домен. Прогон от 2026-05-23, всего 24 412 кейсов по 21 домену, сток — 98% ok.