API против GUI: Сравниваем новое поколение LLM-агентов05.04.2025 09:31

Большие языковые модели (LLM) научились не только генерировать текст, но и выполнять реальные задачи, используя команды на естественном языке. Это открыло новую эру в автоматизации, породив так называемых LLM-агентов. Исследование «API Agents vs. GUI Agents: Divergence and Convergence» от Microsoft разбирает два ключевых подхода к созданию таких агентов. Давайте посмотрим, в чем их суть, различия и перспективы.

В чем проблема?

Сегодня существуют два основных типа LLM-агентов:

API-агенты: Эти агенты взаимодействуют с программами через специально созданные программные интерфейсы (API). Представьте себе Microsoft Copilot или плагины для ChatGPT — они работают именно так. Этот подход популярен благодаря своей надежности, эффективности и относительной простоте интеграции в существующие системы.
GUI-агенты: Эти агенты работают иначе — они взаимодействуют с программами через их графический пользовательский интерфейс (GUI), имитируя действия человека: клики мышкой, ввод текста в поля и так далее. Их появление стало возможным благодаря развитию мультимодальных LLM, которые могут «видеть» экран и понимать, что на нем изображено.

Разница между API-агентом и GUI-агентом по вводу и выводу

Разница между API-агентом и GUI-агентом при выполнении задачи «Запланировать часовую встречу в Google Calendar для LLM-агента на 16:00 8 марта»

Хотя цель у обоих типов агентов одна — автоматизировать задачи — они кардинально различаются по своей архитектуре, принципам работы, надежности и сферам применения. До сих пор не было четкого понимания их сравнительных плюсов и минусов, а главное — как их можно использовать вместе. Разработчикам и исследователям нужно руководство: когда выбирать API-подход, когда — GUI, а когда их комбинировать? Эта статья пытается дать ответы.

Цель исследования

Авторы решили провести первое комплексное сравнение API-агентов и GUI-агентов:

Детально разобрать различия между этими двумя подходами по ключевым параметрам: надежность, эффективность, гибкость и другим.
Изучить возможности их объединения и потенциал создания гибридных решений, сочетающих сильные стороны обоих типов.
Предложить четкие критерии выбора и описать практические сценарии, чтобы помочь специалистам принимать обоснованные решения при разработке LLM-агентов.
Обозначить будущие направления развития, где границы между API- и GUI-агентами могут стереться, ведя к созданию более гибких систем.

Как проводили исследование?

Авторы сравнили два подхода по 9 важным параметрам: модальность ввода/вывода, надежность, эффективность, доступность (насколько легко применить к разным программам), гибкость, безопасность, поддерживаемость, прозрачность работы и человекоподобность взаимодействия. Для каждого аспекта привели аргументы, подчеркивающие различия.

Параметр	Агенты API	Агенты GUI
Модальность	Опираются на текстовые вызовы API	Зависит от снимков экрана или структур доступности
Надежность	Как правило, выше при наличии чётко определённых конечных точек	Ниже из-за визуального анализа и изменений в макете
Эффективность	Выполняют сложные задачи за один вызов	Требуют нескольких действий, похожих на действия пользователя
Доступность	Ограничены опубликованными или предопределёнными API	Могут работать с любым видимым элементом интерфейса
Гибкость	Ограничены существующими API	Высоко адаптируемы к новым или нераскрытым функциям
Безопасность	Управляются за счёт детального контроля конечных точек	Более рискованны из-за широкого доступа к элементам интерфейса
Поддерживаемость	Стабильны, если API остаются версионированными	Подвержены сбоям при редизайне интерфейса
Прозрачность	Часто скрыты, управляемы серверной частью	Пошагово, визуально отслеживаемы
Человеко-подобное взаимодействие	Чисто программные	Имитируют действия пользователя на экране

Исследователи изучили существующие и потенциальные способы комбинирования API- и GUI-взаимодействий:

Создание API-«оберток» над GUI-интерфейсами (когда API нет, но можно имитировать его через GUI).
Пример API-обертки над рабочим процессом GUI
Использование инструментоворкестрации, которые могут сами решать, когда использовать API (если доступен и эффективен), а когда — GUI (если API нет или он не подходит).
Пример единого оркестратора для управления действиями API и GUI
Применение Low-code/No-code платформ, которые скрывают от пользователя детали реализации агента (API или GUI).
Пример платформы без кода для создания рабочих процессов, интегрирующих как вызовы API, так и GUI-агентов
Разработка рекомендаций: Сформулировали практические советы и критерии для выбора оптимального подхода (API, GUI или гибрид) в зависимости от задачи и требований.

Что в итоге?

Авторы представили детальный анализ сценариев применения API-, GUI-агентов и гибридного подхода:

Сценарий	Рекомендуемый подход	Обоснование
Стабильные, хорошо документированные API	API-агенты	Используют надежные конечные точки для быстродействия и надёжности
Критичные по производительности операции	API-агенты	Снижают задержки и накладные расходы благодаря прямым вызовам функций
Контролируемый доступ к приложениям	API-агенты	Обеспечивают безопасность и защиту
Устаревшее или проприетарное ПО	GUI-агенты	Автоматизируют задачи без необходимости интеграции с бэкендом
Визуальная проверка или тестирование UI	GUI-агенты	Проверяют текст или элементы непосредственно на экране
Интерактивное или графическое управление	GUI-агенты	Имитируют действия пользователя для работы с визуальными элементами
Частичное покрытие API	Гибридный подход	Комбинируют UI-операции, где API отсутствуют, с прямыми вызовами для ресурсоемких задач
Адаптация к будущим изменениям	Гибридный подход	Обеспечивают переход от GUI к API по мере развития конечных точек

API-агенты:
- Плюсы: Высокая эффективность (одна команда API заменяет много кликов), надежность (API меняются реже и предсказуемее, чем GUI), безопасность (четко определенные права доступа через API), поддерживаемость (версионирование API).
  Минусы: Доступность и гибкость ограничены наличием и возможностями существующих API. Работа агента часто непрозрачна для конечного пользователя.
GUI-агенты:
- Плюсы: Высокая доступность (могут работать почти с любым ПО, у которого есть GUI), гибкость (могут взаимодействовать с любыми элементами на экране), прозрачность (пользователь видит, что делает агент), имитация человекоподобного взаимодействия.
- Минусы: Низкая эффективность (много шагов для простых действий), низкая надежность (очень чувствительны к малейшим изменениям в интерфейсе — редизайн ломает агента), проблемы с безопасностью (агент получает широкий доступ к интерфейсу), сложность поддержки.
Способы объединения:
- Авторы показали, что граница между подходами не такая уж и жесткая.
- Представлены практические примеры гибридных подходов (API-обертки, оркестраторы, low-code платформы), которые позволяют брать лучшее от обоих. Например, оркестратор может использовать API для быстрых и надежных операций, а если нужного API нет — переключиться на GUI-агента для выполнения задачи через интерфейс.

Итак, API-агенты — лучший выбор, если есть стабильные API, важна высокая производительность и безопасность. GUI-агенты — подходят для работы с устаревшими системами без API, когда нужна визуальная проверка действий или точная имитация работы пользователя. А гибридный подход — рекомендуется, если API покрывают только часть нужной функциональности или если нужна гибкость на будущее (например, при работе с постоянно меняющимся ПО).

Выводы

API- и GUI-агенты — это не столько конкуренты, сколько взаимодополняющие инструменты. Понимание их сильных и слабых сторон очень важно для выбора правильного решения.

Гибридные подходы — самое перспективное направление. Они позволяют создавать более универсальные и адаптивные системы автоматизации, способные работать в сложных и разнообразных программных средах. А развитие мультимодальных LLM будет и дальше ускорять прогресс GUI-агентов, делая их надежнее и умнее.

Появление же унифицированных платформ и low-code/no-code решений упростит создание сложных рабочих процессов с использованием обоих типов агентов, делая продвинутую автоматизацию доступнее.

Но надежность GUI-агентов остаются серьезными проблемами. Изменения в интерфейсе приложений легко ломают их, требуя постоянной доработки. Также и безопасность GUI-агентов требует особого внимания — они потенциально могут выполнить нежелательные действия через интерфейс пользователя.

В целом, статья — своевременный и полезный материал для всех, кто интересуется ИИ и автоматизацией. Она закладывает хорошую базу для дальнейшего изучения гибридных архитектур и разработки более умных и гибких LLM-агентов будущего.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Habrahabr.ru прочитано 9146 раз