[Перевод] Мультиагенты, основанные на больших языковых моделях(LLM)
Хочу представить вам пересказ-обзор на статью Large Language Model based Multi-Agents: A Survey of Progress and Challenges, представленную группой ученых (Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang) 21 января 2024 года.
Статья является обзором на тему нашумевших систем мультиагентов, рассказывая про различные методы классификации таких систем, проблемы в разработке мультиагентных систем и областях применения.
Благодаря развитию больших языковых моделей (LLM) открылись новые возможности сфере автономных агентов, которые могут воспринимать окружающую среду, принимать решения и предпринимать ответные действия. Таким образом, агенты на основе сильных LLM смогли достичь уровня понимания и генерации инструкций, подобных человеческим, что облегчает сложное взаимодействие и принятие решений в широком диапазоне контекстов.
На основе вдохновляющих возможностей одного агента на базе LLM были предложены системы мультиагентов на основе LLM (LLM-MA), позволяющие использовать коллективный разум, а также специализированные профили и навыки нескольких агентов. По сравнению с системами, использующими один агент на основе LLM, многоагентные системы предлагают расширенные возможности за счет специализации LLM на различных отдельных агентах с разными возможностями и обеспечения взаимодействия между этими различными агентами для моделирования сложных реальных процессов. В этом контексте несколько автономных агентов совместно участвуют в планировании, обсуждениях и принятии решений, отражая совместный характер групповой работы людей при решении задач.
В статье рассматриваются несколько характеристик, которые описывают мультиагентные системы.
Интерфейсы
«Песочница» это моделируемая или виртуальная среда, созданная человеком, где агенты могут взаимодействовать более свободно и эффективно. Этот тип интерфейса широко используется при разработке программного обеспечения, играх и т. д.
Физический интерфейс — это Реальная среда, в которой агенты взаимодействуют с физическими объектами и подчиняются физике и ограничениям реального мира. В физическом пространстве агентам обычно необходимо предпринимать действия, которые могут иметь прямые физические результаты. Например, в уборке роботам-агентам необходимо выполнять действия, наблюдать за физической средой и постоянно совершенствовать свои действия.
Отсутствие среды — сценарии, в которых агенты не взаимодействуют ни с какой средой. Эти приложения в первую очередь ориентированы на общение между агентами и не зависят от внешней среды.
Метод задачи профиля агента
Заранее определенные — профили агентов явно определяются-прописываются разработчиками системы
Сгенерированные моделью — профили агентов определяются моделью (например, языковая модель сама прописывает инструкции агенту)
Полученные из данных — построение профилей агентов на основе ранее существовавших наборов данных.
Так же выделяют несколько классификаций коммуникаций между агентами.
Парадигмы общения:
Сотрудничество — агенты работают вместе для достижения общей цели, обычно обмениваясь информацией для улучшения коллективного решения.
Обсуждение/ дебаты — агенты участвуют в спорных взаимодействиях, представляя и защищая свои собственные точки зрения или решения, а также критикуя точки зрения других.
Соревнование — конкурирующие агенты работают над достижением своих собственных целей, которые могут противоречить целям других агентов
Структура общения:
Многоуровневая коммуникация (иерархическая) — агенты на каждом уровне имеют заданный порядок и ранг и в основном взаимодействуют внутри своего уровня или со смежными уровнями.
Децентрализованная связь работает в одноранговой сети, где агенты напрямую общаются друг с другом, структура, обычно используемая в приложениях моделирования мира.
Централизованная коммуникация предполагает наличие центрального агента или группы центральных агентов, координирующих коммуникацию системы, решающего как общаются другие агенты.
Общий пул — структура связи поддерживает общий пул сообщений, в котором агенты публикуют сообщения в общий пул и подписываются на соответствующие сообщения на основе своих профилей, тем самым повышая эффективность связи.
В системах LLM-MA коммуникация обычно принимает форму текста. Конкретное содержание широко варьируется и зависит от конкретного приложения. Например, при разработке программного обеспечения агенты могут общаться друг с другом по поводу сегментов кода. В симуляциях таких игр, как «Вервольф», агенты могут обсуждать свой анализ, подозрения или стратегии.
Приобретение новых способностей — это важнейший процесс в LLM-MA, позволяющий агентам динамично учиться и развиваться. В этом контексте существуют две фундаментальные концепции: типы обратной связи, на основе которой агенты должны учиться расширять свои возможности, и стратегии, позволяющие агентам адаптироваться для эффективного решения сложных проблем.
Типы обратной связи:
Обратная связь от окружающей среды — из реальной или виртуальной среды для сценариев решения проблем. Например, для разработки программного обеспечения агенты получают обратную связь от интерпретатора кода или роботы получают обратную связь из реальных или смоделированных сред.
Обратная связь от взаимодействия агентов — обратная связь исходит от оценки других агентов. Это часто встречается в сценариях решения проблем, таких как научные дебаты, где агенты учатся критически оценивать и уточнять выводы посредством общения. В сценариях моделирования мира, таких как игровое моделирование, агенты учатся совершенствовать стратегии на основе предыдущих взаимодействий между другими агентами.
Человеческая обратная связь исходит непосредственно от людей и имеет решающее значение для согласования мультиагентной системы с человеческими ценностями и предпочтениями.
Отсутствие связи — В некоторых случаях обратная связь с агентами не предоставляется. Это часто случается с работами по моделированию мира, сосредоточенными на анализе результатов моделирования, а не на возможностях агентов по планированию.
Чтобы расширить свои возможности, агенты могут адаптироваться с помощью трех основных решений.
Память. Большинство систем LLM-MA используют модуль памяти, позволяющий агентам корректировать свое поведение. Агенты хранят в своей памяти информацию о предыдущих взаимодействиях и обратную связь. Этот процесс помогает улучшить их будущие действия.
Самоэволюция. Вместо того, чтобы полагаться только на исторические записи для принятия решений о последующих действиях, как это показано в решениях на основе памяти, агенты могут динамически саморазвиваться, например, изменяя свои первоначальные цели и стратегии планирования, а также тренируясь на основе обратной связи или общения.
Динамическая генерация. В некоторых сценариях система может генерировать новых агентов «на лету» во время работы. Эта возможность позволяет системе эффективно масштабироваться и адаптироваться, поскольку она может внедрять агенты, специально разработанные для решения текущих потребностей и задач.
Также в статье активно описывается где используются мультиагенты. Их так же разделили на два типа — решение проблем и моделирование мира.
Основной мотивацией использования мультиагентных систем для решения проблем является использование коллективных возможностей агентов со специальным опытом. Эти агенты, каждый из которых действует как индивидуум, сотрудничают для эффективного решения сложных проблем, таких как разработка программного обеспечения, агенты-роботы, научные эксперименты и научные дебаты.
Еще одним распространенным сценарием применения является моделирование мира. Области применения включают в себя социальные науки, игры, психологию, экономику, оценку политики и т. д. Среда проектов моделирования мира обычно создается так, чтобы отражать конкретный сценарий, при этом агенты разрабатываются с различными профилями, чтобы соответствовать этому контексту. В социальном моделировании мультиагенты используются для моделирования социального поведения с целью изучения потенциальной социальной динамики и ее распространения, проверки теорий социальных наук и наполнения виртуальных пространств и сообществ реалистичными социальными явлениями.
Закончив с описанием типов и применения мультиагентов, авторы переходят к описаниям платформ с открытым исходным кодом, использующие языковые модели для решения сложных задач с упором на многоагентное сотрудничество: MetaGPT, CAMEL и Autogen.
Исследования в области мультиагентных систем на основе крупных языковых моделей (LLM-MA) активно развиваются, сталкиваясь с разнообразными вызовами и открывая новые возможности:
Большая часть исследований до сих пор сосредоточена на текстовом анализе, оставляя за рамками внимания мультимодальные сценарии, где агенты могли бы обрабатывать и генерировать данные разных типов.
Существенным вызовом является проблема «галлюцинаций» в LLM, усугубляемая в мультиагентных контекстах из-за взаимодействия агентов, что требует сложных решений для предотвращения распространения дезинформации.
Cистемы LLM-MA в основном учатся на основе мгновенной обратной связи, например, взаимодействия с окружающей средой или людьми. Этот стиль обучения требует надежной интерактивной среды, что чаще всего не достигается. Хотя эти методы эффективны для отдельных агентов, они могут не развивать в правильном направлении всю сеть агентов. Следовательно, совместная настройка нескольких агентов и достижение оптимального коллективного интеллекта по-прежнему остается критической задачей для LLM-MA.
С точки зрения вычислительной сложности каждый агент на основе LLM, обычно построенный на больших языковых моделях, таких как GPT-4, требует значительной вычислительной мощности и памяти. Увеличение количества этих агентов в системе LLM-MA значительно увеличивает требования к ресурсам. В сценариях с ограниченными вычислительными ресурсами разработка таких систем LLM-MA будет сложной задачей.
Оценка и сравнение систем LLM-MA до сих пор представляет собой неоднозначную задачу. Во-первых, большая часть существующих исследований сосредоточена на оценке понимания и рассуждения отдельных агентов в рамках узко определенных сценариев. Такое внимание имеет тенденцию упускать из виду более широкие и сложные возникающие модели поведения, которые являются неотъемлемой частью многоагентных систем. Во-вторых, существует заметная нехватка в разработке комплексных эталонных показателей в нескольких областях исследований, таких как научная группа по экспериментальным операциям, экономический анализ и моделирование распространения болезней. Этот пробел представляет собой препятствие для точной оценки и сравнительного анализа всех возможностей систем LLM-MA в этих разнообразных и важных областях.
Потенциал систем LLM-MA выходит далеко за рамки их текущих приложений и открывает большие перспективы для решения передовых вычислительных задач в таких областях, как финансы, образование, здравоохранение, экология, городское планирование и так далее. Системы LLM-MA обладают способностью решать сложные проблемы и моделировать различные аспекты реального мира. Хотя текущие возможности LLM могут иметь ограничения, продолжающиеся достижения в технологии LLM предполагают светлое будущее. Ожидается, что появятся более сложные методологии, приложения, наборы данных и тесты, адаптированные для различных областей исследований.