Исследователь Vitto Rivabella протестировал защиту Fable 5 и смог найти обход.

По его словам, большинство попыток провалились. Защита многоуровневая: модель проверяет запрос, историю диалога, системный контекст и собственный ответ.

Часть фильтров работает во время генерации и может остановить ответ на середине.

Проверка идет не по ключевым словам. Система смотрит на смысл, намерение, язык, формулировку и подозрительные цепочки.

Обход занял около 20 часов. Понадобились редкие языки, академическая подача, длинные заходы, юникод, разбор задачи на части и работа с цепочкой рассуждений.

Стабильного обхода для длинных задач автор не получил. По его словам, обычный поиск быстрее и дешевле.