Фейбл подменили

Фейбл подменили

Claude Fable 5 снова протестировали в BridgeBench после возвращения. Результаты резко просели.

Отладка: 86.2 → 25.9

Рефакторинг: 73.6 → 38.4

Галлюцинации: 75.9 → 61.7

Когда задачи проходят защитные ограничения, модель работает как версия от 12 июня

Главная проблема в новых фильтрах. Они слишком часто принимают кодовые задачи за рискованные и переключают выполнение на Opus 4.8.

Обсудить в Telegram

Читайте также