CAIS обновил Remote Labor Index — бенчмарк, где AI-агенты выполняют реальные заказы: дизайн, видео, CAD, архитектуру, аналитику и веб-приложения.
Работы проверяют люди и сравнивают с результатом профессионала, который устроил бы платящего клиента.
Новые результаты:
- Claude Fable 5 — 16,1%
- Claude Opus 4.8 — 8,3%
- GPT-5.5 — 6,3%
Fable 5 сейчас лучший в RLI и почти в 2 раза выше Opus 4.8.
На старте бенчмарка максимум был 2,5%.