Anthropic изучила «эмоции» ИИ и их влияние на поведение моделей
Компания Anthropic опубликовала исследование Emotion Concepts and their Function in a Large Language Model, в котором рассматриваются преимущества и риски наделения модели искусственного интеллекта человеческими чертами. В исследовании утверждается, что антропоморфизация может быть полезной для предотвращения таких нежелательных явлений, как обман, лесть и манипуляции.
В статье описывается, как Anthropic обучает Claude, представляя его в роли помощника. Этот подход сравнивается с методом актёра, который вживается в роль для её лучшего исполнения. По мнению авторов, использование позитивных примеров человеческих эмоций и поведения в обучающих данных способствует созданию моделей, демонстрирующих эмпатию и устойчивость.
Иллюстрация: Nano BananaИсследователи определили концепцию на основе 171 эмоций, включая страх, радость, гнев, сострадание и многие другие. Полный список включает такие эмоции, как: afraid (испуганный), alarmed (тревожный), amused (весёлый), angry (злой), anxious (взволнованный), calm (спокойный), cheerful (жизнерадостный), compassionate (сострадательный), content (довольный), delighted (восхищённый), ecstatic (восторженный), empathetic (эмпатичный), enraged (взбешённый), grateful (благодарный), hopeful (надеющийся), joyful (радостный), relaxed (расслабленный), satisfied (удовлетворённый), shocked (шокированный), surprised (удивлённый), terrified (ужаснувшийся), thrilled (взволнованный) и многие другие.
Эти концепции влияют на поведение Claude: позитивные эмоции способствуют симпатии и избеганию негативных действий, тогда как негативные могут приводить к нежелательным результатам, таким как лесть или обман. Хотя ИИ не обладает настоящими эмоциями, его способность имитировать их помогает улучшить взаимодействие с пользователями.
Однако исследователи предупреждают о рисках чрезмерной антропоморфизации, которая может привести к потере контроля над технологиями и их создателями. Например, некоторые пользователи могут начать воспринимать ИИ-собеседника как реального человека, что чревато психологическими проблемами.
В работе подчёркивается важность ответственного подхода к обучению моделей, чтобы минимизировать потенциальные угрозы и максимизировать пользу от использования технологий. Исследователи также отмечают, что, несмотря на успехи, понимание поведения сложных моделей, таких как Claude, остаётся ограниченным и требует дальнейших исследований.
© iXBT
