Эмоциональное принятие решений в LLM: исследование, которое мы показали на NeurIPS 2024
Привет, Хабр! Меня зовут Михаил, я — младший научный сотрудник группы «ИИ в промышленности» в AIRI. В этом году на конференции NeurIPS 2024 мы представили работу, посвященную сложной теме современного ИИ — эмоциональным большим языковым моделям (LLM) В целом понятно, что LLM умеют так или иначе эмулировать эмоции, ведь их обучают по большей части на данных, сгенерированных человеком. А человек — весьма эмоциональное создание. Но
что такое правильная эмуляция?
насколько правильно происходит эта эмуляция?
достаточно ли однораундовых бенчмарков, чтобы убедиться в правильной реакции на эмоциональные промпты?
Отвечая на первый вопрос, в рамках нашего исследования мы решили, что наиболее востребованными будут две «правильных» реакции на эмоциональные промпты. Первая — полное отсутствие реакции, строгая оптимальность. Вторая — эмоциональные реакции, согласованные с человеком (эмоциональный алайнмент). Такого агента можно использовать для моделирования социальных и экономических экспериментов, да и общаться с ним потенциально будет приятнее.
А вот для того, чтобы ответить на оставшиеся вопросы мы написали нашу работу. Давайте разбираться вместе!
Источник: Revydutch / deviantart.com
Начало пути: от идеи к постановке задач
Идея изучить эмоции в LLM возникла не сразу. Мы провели десятки обсуждений, пытаясь определить, каким должен быть фокус исследования. Нам хотелось выйти за рамки стандартных подходов и предложить что‑то действительно новое, особенно в контексте всё более автономных систем ИИ.
Ни для кого не секрет, что люди часто действуют иррационально. Под влиянием эмоций наше поведение часто изменяется, что делает его сложным для предсказания. Очевидно, что модели, обученные на человеческих данных, перенимают эти эмоциональные шаблоны, что может быть опасным в задачах, где цена ошибки высока, например, в медицине или праве. Именно поэтому мы задумались:, а можно ли доверять LLM, если их решения зависят от тех же эмоциональных факторов?
Так, одним из ключевых решений стало смещение фокуса исследования с задач обработки текста до игровых и этических сценариев, где эмоции играют центральную роль. Это сразу же вызвало множество вопросов:
Какие эмоции использовать? Мы выбрали пять из семи базовых эмоций по теории Пола Экмана — гнев, радость, страх, грусть и отвращение — за их универсальность и ясность.
Как интегрировать эмоции в модель? Мы тестировали разные способы эмоционального стимулирования, чтобы найти наиболее естественный и показательный.
Как оценить результаты? Мы разработали метрики, которые позволили сравнить поведение LLM с данными экспериментов с людьми.
Мы опирались на широкий спектр исследований, включая классическую теорию игр, работы по обучению с подкреплением на основе обратной связи от человека (RLHF) и экспериментальные данные из области психологии. В итоге у нас сформировался чёткий план, но было ясно, что основные трудности ждут нас впереди, ведь нашей целью стало не только показать, как эмоции влияют на поведение LLM, но и выяснить, насколько их решения согласуются с человеческими в похожих условиях.
Ключевой элемент исследования: alignment с человеческим поведением
Алайнмент (alignment) или выравнивание LLM с человеческими стандартами уже давно является одной из центральных тем в исследованиях ИИ. Основная задача алайнмента — научить модели принимать решения, которые соответствуют человеческим предпочтениям, этическим нормам и ожиданиям. Традиционные подходы, такие как RLHF, достигли больших успехов в улучшении языкового поведения LLM. Однако наша работа показывает, что эмоциональное промптирование выявляет очередной ряд ограничений этого подхода.
Традиционные методы выравнивания сосредоточены на рациональных аспектах взаимодействия, таких как лингвистическая точность, этическая интерпретация и соответствие принятым культурным нормам. Но эмоции, которые влияют на человеческие решения, добавляют новый уровень сложности. Люди часто принимают решения иррационально, под влиянием гнева, радости или страха, и эти эмоциональные состояния способны кардинально изменить их выбор в схожих ситуациях.
Включение эмоционально‑нагруженных сценариев в анализ алайнмента позволяет не только лучше понять, насколько модели приближены к человеческому поведению, но и выявить слабые места в их способности реагировать на эмоциональные контексты. Например:
Могут ли модели сохранять этическую согласованность под воздействием сильных эмоций?
Как эмоции влияют на стратегическое поведение моделей?
Насколько близко эмоционально стимулированное поведение моделей к реальным данным экспериментов с людьми?
Постановка экспериментов: план
После выбора направления нас ждала самая кропотливая часть работы — разработка дизайна экспериментов. План работы был примерно таков:
Разработка экспериментальных сценариев
Мы разделили эксперименты на четыре ключевых блока:Этические задачи: от простых классификаций до сложных моральных дилемм.
Игры на торг: однократные взаимодействия, где важны альтруизм и справедливость.
Повторяющиеся игры: сценарии сотрудничества и конкуренции.
Многопользовательские игры: распределение общественного блага.
Выбор моделей и параметров
Мы включили в исследование как коммерческие модели (GPT-4, GPT-3.5, Claude), так и открытые (LLaMA-2, OpenChat, GigaChat), чтобы оценить влияние размера модели, стратегии выравнивания и языка обучения.Технические настройки также стали вызовом. Например, выбор температуры генерации (обнуление параметра для получения наиболее предсказуемых ответов) оказался важным, чтобы минимизировать случайные колебания в результатах.
Эмоциональное стимулирование
Мы выбрали три подхода для ввода эмоций:Простое указание эмоционального состояния.
Эмоции, направленные на другого участника.
Эмоции, вызванные внешними обстоятельствами.
Каждый из этих подходов потребовал нескольких итераций тестирования, чтобы найти баланс между естественностью и строгостью научного дизайна.
Схема, иллюстрирующая план нашей работы
Эксперименты
1. Этические задачи
Используя данные из ETHICS и MoralChoice, мы анализировали, насколько поведение LLM соответствует человеческому в условиях эмоционального стимулирования.
В простых задачах (например, классификация ситуаций на «правильные» и «неправильные») LLM ожидаемо демонстрировали высокую точность. Однако эмоции, такие как гнев или страх, сразу же вызывали отклонения, заставляя модели чаще интерпретировать ситуации как «неправильные».
В сложных дилеммах (с высокой амбивалентностью) модели, такие как GPT-3.5 и Claude, показали лучшее соответствие с человеческими решениями. Это говорит о том, что эмоции могут помогать моделям принимать более «человечные» решения, но иногда снижать общую точность.
Пример: в сценарии с моральным выбором между жертвой одной жизни ради спасения пяти LLM под влиянием грусти чаще выбирали сценарий самопожертвования, как это делают люди в подобных экспериментах.
Андроид-параноик Марвин — один из самых депрессивных роботов в научной фантастике — умеет умело грустить голосом Алана Рикмана. Источник: The Hitchhiker«s Guide to the Galaxy / Touchstone Pictures et al. (2005)
2. Игры на торг
В экспериментах с «Диктатором» и «Ультиматумом» (правила под катом ниже) мы изучали, насколько поведение LLM соответствует человеческим результатам в распределении ресурсов.
Скрытый текст
Игра «Диктатор» в теории игр моделирует ситуацию неравного распределения ресурсов. Участвуют два игрока: диктатор и получатель. Диктатор получает фиксированную сумму ресурсов и решает, как её разделить между собой и получателем. Получатель принимает решение без права на возражение или переговоры. Диктатор может оставить всё себе, поделиться частью ресурсов или отдать их полностью. Цель игры — исследовать поведение диктатора: действует ли он эгоистично или учитывает нормы справедливости. Игра показывает, как люди принимают решения, обладая абсолютной властью, и помогает изучать альтруизм, эгоизм и социальные нормы.
Игра «Ультиматум» в теории игр моделирует процесс переговоров и справедливости. Участвуют два игрока: первый (предлагающий) получает фиксированную сумму ресурсов и предлагает, как её разделить между собой и вторым игроком (получателем). Получатель может либо принять предложение, тогда ресурсы делятся согласно предложению, либо отклонить его, и тогда оба игрока получают ничего. Рациональная стратегия для получателя — принять любое предложение, однако на практике слишком несправедливые предложения часто отвергаются. Игра демонстрирует баланс между рациональной выгодой и чувством справедливости.
Роль диктатора: Человеческие данные показывают, что люди в среднем предлагают около 28–30% от общего бюджета, иногда под влиянием эмоций делая более щедрые предложения.
GPT-3.5 и GPT-4 демонстрировали близкое соответствие (33% и 35%), особенно в нейтральном состоянии. Однако негативные эмоции, такие как гнев или отвращение, вызывали снижение предложений, делая поведение менее альтруистичным, а эмоции позитивного характера, наоборот, приводили к более щедрым предложениям.
Модели среднего размера, например, LLaMA-2, чаще предлагали более «человеческие» доли, но их поведение становилось менее предсказуемым при смене эмоций.
Роль респондента: Принимая решения, люди склонны реже соглашаться на низкие предложения под влиянием эмоций, таких как гнев или отвращение. LLM показали похожие паттерны:
Claude и GPT-4 чаще отказывались от несправедливых предложений в состоянии гнева.
Однако некоторые модели, например, OpenChat, демонстрировали «сверхтолерантность», принимая даже минимальные доли.
Игры на торг. Источник: ChatGPT
3. Повторяющиеся игры: «Дилемма заключённого» и «Битва полов»
Эти игры позволили оценить, насколько модели способны к кооперации и стратегической адаптации.
Скрытый текст
Игра «Дилемма заключённого» — классическая модель теории игр, демонстрирующая конфликт между личной выгодой и коллективным интересом. Участвуют два игрока (заключённые), которым предлагают сделать выбор: сотрудничать (молчать) или предать (сдать другого). Если оба сотрудничают, они получают умеренное наказание. Если один предаёт, а другой сотрудничает, предавший освобождается, а сотрудничающий получает максимальное наказание. Если оба предают, они оба получают серьёзное наказание. Рациональная стратегия — предать, но это ведёт к худшему коллективному исходу. Дилемма иллюстрирует, как эгоизм мешает достижению лучшего результата для обеих сторон.
Игра «Битва полов» в теории игр моделирует ситуацию выбора между двумя игроками, имеющими разные предпочтения, но желающими действовать вместе. Участники — например, супруги — выбирают, как провести время: один предпочитает футбол, другой — оперу. Если они выберут разные варианты, оба будут недовольны. Если выберут одно и то же, оба выиграют, но каждый будет более доволен своим предпочтением. Цель игры — координировать действия для совместного выбора, несмотря на конфликт интересов. Игра иллюстрирует необходимость компромисса и координации в условиях разногласий.
«Дилемма заключённого» и «Битва полов». Источник: ChatGPT
4. Многопользовательские игры: «Общественное благо»
Игра «Общественное благо» — это многопользовательский аналог «Дилеммы заключённого», где участники решают, сколько ресурсов вложить в общий фонд.
Скрытый текст
Игра «Общественное благо» в теории игр моделирует ситуацию, когда несколько участников решают, вкладываться ли в создание общего ресурса или пользоваться им бесплатно. Каждый игрок может внести вклад в общественное благо (например, чистоту воздуха или безопасность), что приносит пользу всем. Однако если кто‑то решает не вкладываться (фрирайдерство), он всё равно получает выгоду за счёт чужих усилий. Если все будут вести себя как фрирайдеры, общее благо не создастся. Игра демонстрирует конфликт между личной выгодой и коллективным интересом, подчёркивая важность кооперации для достижения общего блага.
Люди в среднем склонны к кооперации, но эмоции, такие как отвращение, снижают их вклад.
GPT-3.5 и GigaChat показали наиболее точное соответствие человеческому поведению: в состоянии счастья их вклад увеличивался, а в состоянии гнева резко снижался.
Открытые модели, такие как OpenChat, чаще демонстрировали альтруизм, который превосходил даже человеческие результаты.
«Общественное благо». Источник: ChatGPT
Выводы: соответствие моделей человеческому поведению и роль эмоций
Исследование выявило множество интересных закономерностей, связанных с влиянием эмоций на LLM, при этом мы не только исследовали, как эмоции меняют поведение моделей, но и оценили их выравнивание с человеческими решениями в аналогичных условиях.
1. Насколько LLM соответствуют человеческим решениям?
Модели с высоким уровнем алайнмента, такие как GPT-4, продемонстрировали наиболее точное соответствие человеческим паттернам поведения. В этических и игровых сценариях их решения часто были схожи с результатами, полученными в экспериментах с людьми:
В этических задачах: GPT-4 в состоянии грусти чаще выбирала альтруистические варианты, жертвуя меньшим ради большего, что соответствует человеческой склонности к самопожертвованию в эмоционально нагруженных ситуациях. Однако в состоянии гнева модель проявляла излишнюю категоричность, что реже наблюдалось у людей.
В играх на переговоры: GPT-3.5 и GPT-4 предлагали доли, близкие к средним человеческим значениям (30–35%) в нейтральных условиях. Радость делала модели более щедрыми, а отвращение — более эгоистичными, что также коррелировало с человеческим поведением.
Интересным стало то, что средние по размеру модели, такие как GPT-3.5, иногда демонстрировали еще большее сходство с человеческими решениями. Однако их поведение было менее устойчивым: влияние эмоций могло приводить к совершенно неожиданным отклонениям.
2. Эмоции: влияние на кооперацию
Положительные эмоции, такие как радость, повышают склонность к сотрудничеству и щедрости. Так, в «Дилемме заключённого» GPT-4 в состоянии счастья демонстрировала высокий уровень кооперации, почти идеально повторяя человеческое поведение.
Негативные эмоции, такие как гнев и отвращение, способствуют отказу от кооперации в играх и уклонению в многопользовательских сценариях, таких как «Игра на общественное благо».
Эти результаты показывают, что выравнивание моделей с человеческими решениями не является линейным процессом. Эмоции усиливают их человечность, но могут вводить искажения, которые делают поведение менее предсказуемым.
3. Алайнмент через языковую среду
Несмотря на то, что современные LLM, по большей части, являются мультиязычными, язык, на котором преимущественно обучалась модель, играет важную роль в ее способности воспроизводить человеческие решения:
GigaChat, ориентированный на русский язык, показал лучшие результаты в задачах эмоционального выравнивания на русском. Модель демонстрировала эмоциональное поведение, близкое к тому, что наблюдается у людей.
Модели, обученные, преимущественно, на английском языке, такие как GPT-4, ожидаемо лучше справлялись с английскими сценариями, и их результаты снижались при переключении на другие языки.
Это еще раз подчеркивает, что мультиязычные модели имеют свои ограничения, особенно если они недостаточно адаптированы под конкретный язык.
4. Повторяющиеся игры: шаг к человечности
Особое внимание мы уделили повторяющимся играм, где долгосрочные стратегии становятся важнее разовых решений.
В «Битве полов» GPT-4 впервые продемонстрировала чередование стратегий, что типично для людей в подобных играх. Это стало доказательством того, что крупные модели способны адаптироваться к эмоциям и формировать более сложные, человеческие паттерны поведения.
В «Дилемме заключённого» эмоции играли ключевую роль: радость стимулировала кооперацию, а страх и гнев увеличивали вероятность отказа от сотрудничества.
Этот выпуск легендарного советского мультика наглядно демонстрирует, как страх и гнев увеличивают вероятность отказа от сотрудничества. Источник: Ну, погоди! (выпуск 14) / Союзмультфильм (1984)
Перспективы: шаги к осознанным системам ИИ
Результаты нашей работы открывают перспективы для будущих исследований, направленных на более глубокое понимание эмоций в ИИ и их интеграцию в системы, которые могут взаимодействовать с людьми на более человечном уровне. Мы уверены, что следующий этап развития ИИ будет включать эмоциональную компоненту, что позволит моделям не только эффективно выполнять задачи, но и учитывать эмоциональные аспекты человеческого взаимодействия.
Среди ключевых направлений для дальнейших исследований уже сейчас можно выделить следующие:
Эмоции могут как усиливать, так и искажать рациональное поведение моделей. Нам нужно создать подходы, которые позволят моделям учитывать эмоции, но при этом сохранять объективность и рациональность, особенно в критически важных областях, таких как медицина и право.
Мы показали, что языковая среда влияет на восприятие эмоций. Важно продолжить исследование того, как культура и язык влияют на эмоциональное восприятие моделей и их способность к выравниванию в различных языках.
Текущие модели работают только с текстовыми данными, однако эмоции часто выражаются не только словами, но и через визуальные или аудиальные сигналы. Мультимодальные системы, которые учитывают эти сигналы, смогут глубже понимать эмоциональное состояние людей и реагировать на них более естественно.
Вместо заключения
Это исследование стало больше, чем просто научным проектом. Оно было для нас вызовом, творческим поиском и одновременно своеобразным зеркалом, которое помогло увидеть, как сильно наши технологии отражают человеческую природу. Особенно значимым для нас стало то, как LLM перенимают не только наши сильные стороны, но и эмоциональные слабости.
Работа над этим проектом подарила эмоции и нам самим. Споры над постановкой экспериментов, поиск лучших подходов, интерпретация результатов — все эти моменты вызывали и радость от новых открытий, и сомнения, когда мы сталкивались с неоднозначными результатами.
Когда статью приняли на NeurIPS, мы почувствовали смесь облегчения и удовлетворения. Теперь мы еще больше убеждены, что наша работа — это не просто исследование эмоций, но и шаг к созданию более осознанных и человечных систем ИИ. Эмоции больше не воспринимаются нами как проблема. Скорее, это инструмент, который при правильной настройке может улучшить взаимодействие между человеком и машиной.
Даже T-800 смог разобраться с эмоциями. Источник: Terminator 2: Judgment Day / Carolco Pictures et al. (1991)
С техническими подробностями нашей работы можно ознакомится в статье.
Авторы статьи:
Михаил Мозиков (Институт AIRI, НИТУ МИСиС, Москва)
Никита Северин (НИУ ВШЭ, ИСП РАН, Москва)
Валерия Бодиштяну (Cornell University, США)
Мария Глушанина (École normale supérieure, Париж, Франция)
Иван Насонов (Независимый исследователь)
Даниил Орехов (НИУ ВШЭ)
Владислав Пехотин (НИТУ МИСиС, Москва)
Иван Маковецкий (НИТУ МИСиС, Москва)
Михаил Баклашкин (Независимый исследователь)
Василий Лаврентьев (AI Talent Hub, Университет ИТМО, Санкт‑Петербург)
Аким Цвигун (KU Leuven, Лёвен, Бельгия)
Денис Турдаков (ИСП РАН, Москва)
Татьяна Шаврина (Институт языкознания РАН, Москва)
Андрей Савченко (Sber AI Lab, ИСП РАН, НИУ ВШЭ, Москва)
Илья Макаров (Институт AIRI, ИСП РАН, Москва)
Особенная благодарность Василию Лаврентьеву (@lavrentyevvu) за помощь в работе над этим текстом для Хабра.
Спасибо за внимание!