CAIS обновил Remote Labor Index — бенчмарк, где AI-агенты выполняют реальные заказы: дизайн, видео, CAD, архитектуру, аналитику и веб-приложения.

Работы проверяют люди и сравнивают с результатом профессионала, который устроил бы платящего клиента.

Новые результаты:

  • Claude Fable 5 — 16,1%
  • Claude Opus 4.8 — 8,3%
  • GPT-5.5 — 6,3%

Fable 5 сейчас лучший в RLI и почти в 2 раза выше Opus 4.8.

На старте бенчмарка максимум был 2,5%.