Исследователь Vitto Rivabella протестировал защиту Fable 5 и смог найти обход.
По его словам, большинство попыток провалились. Защита многоуровневая: модель проверяет запрос, историю диалога, системный контекст и собственный ответ.
Часть фильтров работает во время генерации и может остановить ответ на середине.
Проверка идет не по ключевым словам. Система смотрит на смысл, намерение, язык, формулировку и подозрительные цепочки.
Обход занял около 20 часов. Понадобились редкие языки, академическая подача, длинные заходы, юникод, разбор задачи на части и работа с цепочкой рассуждений.
Стабильного обхода для длинных задач автор не получил. По его словам, обычный поиск быстрее и дешевле.