Исследование показало пределы применения ИИ-агентов в офисной работе

Новый индекс APEX-Agents показал, что автономные ИИ-агенты с трудом справляются с задачами сложной офисной работы.
Автор: Алексей Новиков , Редактор Фото: Generated by DALL·E
В мире

Компания Mercor представила исследование, в котором впервые оценила способность автономных ИИ-агентов выполнять задачи, характерные для высококвалифицированной офисной деятельности. Как отмечает портал «boda», речь идёт о работе в сферах консалтинга, инвестиционного банкинга и юридической практики, где требуется анализ документов, удержание контекста и последовательное принятие решений.

В рамках исследования был разработан индекс APEX-Agents — инструмент, измеряющий продуктивность ИИ при выполнении длительных и многосоставных задач. В отличие от привычных тестов, задания не сводились к проверке знаний или логических операций. Моделям предлагались реальные профессиональные ситуации, с которыми ежедневно сталкиваются специалисты.

По итогам тестирования ни одна из моделей не показала устойчиво высоких результатов. Лучший показатель продемонстрировал Gemini 3 Flash, успешно выполнив около 24 процентов заданий с первой попытки. Почти такой же результат показал GPT-5.2. Другие модели, включая Claude Opus 4.5 и Gemini 3 Pro, справлялись с задачами примерно в 18 процентах случаев.

Глава Mercor отметил, что основная сложность для ИИ заключается в работе с несколькими источниками одновременно и в понимании связей между документами. По его словам, именно эти навыки остаются ключевым отличием человека-профессионала от алгоритма, обученного на синтетических данных.

Авторы исследования подчеркнули, что APEX-Agents должен стать ориентиром для дальнейшего развития ИИ-агентов. Индекс опубликован в открытом доступе, что позволяет компаниям и исследователям использовать его для повышения практической полезности моделей.