Может ли ИИ заменить вас на работе? Ученые проверили на 175 задачах

ИИ уже пишет код, управляет проектами и общается с коллегами. Но можно ли прямо сейчас доверить ему всю офисную работу? Исследователи протестировали 7 самых мощных нейросетей на 175 реальных задачах. Спойлер: полностью заменить сотрудников нейросети пока не могут. Но давайте разберемся, что именно у них получается лучше всего, какие задачи еще вызывают трудности и стоит ли уже сегодня нанимать себе цифрового помощника в штат.
Исследователи из проекта TheAgentCompany выпустили статью «TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks»: они решили проверить насколько хорошо ИИ-агенты способны писать код, управлять задачами, анализировать отчеты и общаться с коллегами на примере реальной компании-стартапа, смоделированной специально для тестирования нейросетей.

Как проверяли
Авторы создали виртуальную компанию с типичными корпоративными системами:
GitLab для хранения кода и документации.
OwnCloud для офисных документов.
Plane для управления проектами.
RocketChat для внутренней переписки с виртуальными коллегами.
Всего было сформулировано 175 типичных рабочих задач разного уровня сложности по ролям: разработчики, менеджеры проектов, финансисты, HR-специалисты, администраторы и другие. Каждая задача была четко описана и разделена на контрольные точки, за выполнение которых начислялись баллы.

Задачи выполняли семь современных языковых моделей:
Claude-3.5 Sonnet
Gemini-2.0 Flash
GPT-4o
Amazon Nova Pro
Llama-3.1 405B
Llama-3.3 70B
Qwen-2.5 72B
Модели запускались в Docker-контейнере и имели доступ к терминалу, Python-ячейкам и браузеру. Оценивалась точность выполнения задач и стоимость (по количеству токенов).
Что получилось

Самой успешной моделью оказалась Claude-3.5 Sonnet, которая смогла полностью автономно выполнить 24% задач. Ещё 10,4% задач она решила частично, в сумме набрав 34,4% баллов. Средняя стоимость выполнения одной задачи составила $6.34.
Более дешевая модель Gemini-2.0 Flash решила полностью только 11,4% задач, но стоила всего $0.79, хотя тратила больше шагов (в среднем 40 на задачу). Интересный факт: GPT-4o оказалась менее эффективной (8,6% успеха), но «сдавалась» раньше, экономя бюджет ($1.29 за задачу).
Среди открытых моделей лучшей оказалась Llama-3.1 405B с полным результатом в 7,4% задач и стоимостью $3.21. Однако более компактная Llama-3.3 70B практически не уступила ей (6,9% задач), при этом обойдясь всего в $0.93.

Где нейросети справляются, а где нет


Анализ по платформам показал:
На GitLab лучше всего справляется Claude (почти 31% задач), а Llama-3.1 — всего 5,6%.
В задачах управления проектами (Plane) показатели лучше: Claude (41,2%), Llama (29,4%).
В общении с коллегами (RocketChat) Claude выполнил 21,5% задач, а Llama — менее 9%.
Самые большие проблемы с OwnCloud (офисные документы): Claude решил лишь 10%, а Llama вообще 0%.

По типам задач:
Разработка ПО и управление проектами (SDE, PM) — самые успешные задачи (30–35% успеха).
Слабее всего нейросети показали себя в административных задачах (0%) и финансах (Claude — 8,3%).
Почему ИИ ошибаются?
Самые частые ошибки:
Отсутствие базового здравого смысла (например, не понимают, что файл с расширением
.docx
— это документ).Социальные промахи: игнорирование советов и рекомендаций виртуальных коллег.
Проблемы с интерфейсом: нейросети путаются в сложных веб-приложениях и не могут справиться с простыми всплывающими окнами.
Иногда пытаются переименовать пользователя вместо того, чтобы найти нужного коллегу.
Что дальше?
Уже сейчас современные нейросети могут значительно ускорить выполнение рутинных и простых рабочих задач. Особенно эффективны они там, где есть технический код или четкие инструкции.
Однако пока нельзя полностью полагаться на нейросети в долгосрочных, сложных и социальных задачах. Также не хватает креативности и стратегического мышления — нейросети действуют шаблонно и плохо адаптируются к неожиданностям.
Существуют риски с потенциальной безработицей: если ИИ заменят сотрудников в простых задачах, специалисты должны будут повышать квалификацию, чтобы оставаться востребованными.
Авторы предлагают следующие шаги для улучшения ИИ-агентов:
Проверять на более сложных, креативных задачах.
Добавить возможность работать не только с текстом, но и с визуальной информацией.
Сравнить эффективность нейросетей с людьми-профессионалами.
Улучшать способность моделей работать в социальных и интерфейсных сценариях с помощью гибридных архитектур.
Несмотря на ограничения, уже сейчас ИИ может эффективно поддерживать корпоративные процессы и освобождать сотрудников от рутины. До полной автономии далеко, но уже сегодня реалистична идея «гибридного» рабочего места, где человек и машина работают вместе, дополняя друг друга. Это новый этап в развитии технологий, и он уже здесь.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.