Классификация эмоций: в сердце эмоциональных вычислений
Эмоциональный искусственный интеллект, помимо очевидной связи с машинным обучением и нейронными сетями, имеет прямое отношение к психологии и в частности к науке об эмоциях. В этой области сегодня остро стоят несколько вызовов. Один из них — формирование точной и полноценной классификации эмоциональных состояний, от которой в том числе напрямую зависит процесс аннотирования — сопоставления наблюдаемых выражений лица и других невербальных сигналов с определенными эмоциями и аффективными состояниями.
Классификация эмоций
Сегодня широко используются три подхода к категоризации эмоциональных данных: дискретная и многомерная модели, а также гибридная, объединяющая два первых типа.
Дискретный подход основан на категоризации эмоций, которую мы обнаруживаем в естественном языке. Каждая эмоция связана с семантическим полем — конкретным значением или набором значений, которые мы приписываем некоторому эмоциональному состоянию. Теория базовых эмоций — один из самых известных примеров дискретного подхода.
Первое упоминание на нечто похожее на то, что подразумевается под базовыми, или первичными, эмоциями, можно найти в ранних философских текстах, например, греческого или китайского наследний. Платон в знаменитом труде «Республика» относил эмоции к основным составляющим человеческого разума. В функциональной теории эмоций Аристотеля разум, эмоции и добродетели взаимосвязаны, и эмоциональная жизнь каждого здорового человека всегда (или почти всегда) согласована с разумом и добродетелями, осознает он это или нет. В китайском конфуцианстве мы находим от четырех до семи «Цин» — эмоций естественных для любого человека.
В XX веке тема оказалась в фокусе научного интереса, и ряд авторов, в том числе Пол Экман, автор наиболее распространенной теории базовых эмоций, предложили собственное видение количества таких эмоций. Экман предположил, что базовые эмоции должны быть универсальными, в том смысле, что их проявление одинаково для всех культур. В разных теориях мы можем найти от 6 до 22 эмоций (Ekman, Parrot, Frijda, Plutchik, Tomkins, Matsumoto — подробности см. у Cambria et al., 2012).
Существование базовых эмоций на сегодняшний день остается спорным вопросом (см., например, Barret & Вагер, 2006; или Crivelli & Fridlund, 2018). Ряд исследований показал связь базовых эмоций с активностью отдельных структур мозга (например, Murphy et al., 2003, и Phan et al., 2002), хотя в других работах такая корреляция не подтверждается (см. Barrett & Wage, 2006). Интересно, что некоторые исследования восприятия эмоций в изолированных этнических группах не поддерживают гипотезу межкультурной универсальности эмоций. Одним из примеров являются тробрианцы из Папуа-Новой Гвинеи (см. Crivelli & Fridlund, 2018, и Gendron et al., в печати). В эксперименте представителям племени показали фотографию лица, выражающего страх, однако тробрианцы воспринимали это выражение как сигнал об угрозе.
Атлас эмоций, предложенный Полом Экманом: atlasofemotions.org. Первоначальная версия 1999 года также включала «удивление».
Сегодня многие решения в области эмоциональных вычислений основаны на дискретных моделях и включают в себя только базовые эмоции, чаще всего в соответствии с теорией Экмана (например, решения компании Affectiva, пионера эмоционального ИИ). Это означает, что автоматические системы обучаются распознавать довольно ограниченное количество аффективных состояний, хотя в жизни мы постоянно переживаем большое количество эмоций, включая сложные смешанные эмоции, а в межличностном общении пользуемся многочисленными социальными сигналами (например, жестами).
Другой подход — многомерный — представляет эмоции в координатном многомерном пространстве. Поскольку это пространство является неразрывным, существуют эмоции, имеющие одну и ту же природу, но различающиеся по ряду параметров. В аффективной науке эти параметры (или измерения) чаще всего выражены валентностью (valence) и активацией (arousal), например, в датасете RECOLA авторства Ringeval et al. Также часто используется и интенсивность (intensity) эмоций. Таким образом, печаль можно рассматривать как менее интенсивную версию горя и более выраженную задумчивость, в то же время больше похожую на отвращение, чем, например, на доверие. Количество измерений может варьироваться в зависимости от модели. В колесе эмоций Плутчика всего 2 измерения (сходство (similarity) и интенсивность), в то время как Фонтейн постулирует 4 измерения (валентность, потенция (potency), активация, непредсказуемость (unpredictability). Любая эмоция в таком пространстве будет обладать рядом характеристик, измеряющихся величиной, с которой она присутствует в определенном измерении.
Гибридные модели объединяют как дискретные, так и многомерные подходы. Хорошим примером гибридной модели являются «Песочные часы эмоций», предложенные Камбрией, Ливингстоном, Хуссейном (Cambria et al., 2012). Каждое аффективное измерение характеризуется шестью уровнями силы, с которой выражены эмоции. Эти уровни также обозначаются как набор из 24 эмоций. Таким образом, любая эмоция может рассматриваться как фиксированное состояние и как часть континуума, связанная с другими эмоциями нелинейными отношениями.
Эмоции в эмоциональных вычислениях
Итак, почему классификация эмоций имеет такое важное значение для эмоциональных вычислений? В начале статьи мы сделали акцент на том, что классификация эмоций и тот подход, которого мы придерживаемся, напрямую влияют на процесс аннотирования — разметки аудиовизуального эмоционально окрашенного контента. Чтобы обучить нейронную сеть распознавать эмоции, необходим набор данных. Но разметка этого набора полностью зависит от нас, людей, и от того, какие эмоций мы ассоциируем, например, с конкретным выражением лица.
Сегодня распространены несколько инструментов для аннотирования. Это ANNEMO (Ringeval et al.), используемый для многомерных моделей, ANVIL (Kipp) и ELAN (Институт психолингвистики Макса Планка), используемые для дискретных систем. В ANNEMO аннотирование доступно по 2 аффективным измерениям: активация и валентность, значения которой варьируются от -1 до +1. Таким образом, любому эмоциональному состоянию могут быть присвоены значения, характеризующие его интенсивность и позитивность/негативность. Социальные измерения также можно оценивать по 7-балльной шкале в 5 измерениях: согласие (agreement), доминирование (dominance), заинтересованность (engagement), проявление (performance) и взаимопонимание (rapport).
ANVIL и ELAN позволяют использовать собственные фильтры для разметки аудиовизуального эмоционального контента. Фильтры, или маркеры, могут быть представлены словами, предложениями, комментариями или любым другим текстом, имеющим отношение к описанию аффективного состояния. Эти маркеры имеют статический характер и не могут быть выражены величиной.
Выбор подхода и системы аннотирования зависит от целей. Многомерные модели позволяют избежать известной проблемы, когда некоторые слова существуют в каких-то языках, в то время как в других может не быть слов для описания этих эмоций. Это делает процесс аннотирования контекстуально- и культурно-зависимым. Тем не менее дискретные модели — полезный инструмент для категоризации эмоций, поскольку объективно оценивать изменение величин как валентность или активация, сложно, а разные аннотаторы будут давать разные оценки выраженности этих величин.
Бонус: робототехника
Кстати, классификация эмоций широко используется не только в сфере распознавания эмоций, но и для их синтеза. К примеру, в робототехнике. Эмоциональный спектр, доступный роботу, может быть интегрирован в многомерное пространство эмоций. Affect system — система эмоциональных состояний, между которыми может переключаться, вероятно, самый милый робот в индустрии ИИ — Kismet разработки МТИ (MIT), основан именно на многомерном подходе. Каждое измерение эмоционального пространства (активация, валентность и состояние (stance), то есть готовность к общению) сопоставляется с набором лицевых экспрессий. Как только будет достигнута необходимая величина, робот будет переключаться на следующую эмоцию.
Видео: Как работает робот Kismet
- Barrett, L. F. & Wager, T. D. (2006). The structure of emotion evidence from neuroimaging studies. Current Directions in Psychological Science, 15 (2), 79–83. doi: 10.1111/j.0963–7214.2006.00411.x
- Cambria, E., Livingstone, A., Hussain, A. (2012) The Hourglass of Emotions. Cognitive Behavioural Systems,144–157.
- Chew, A. (2009). Aristotle«s Functional Theory of the Emotions. Organon F 16 (2009), №1, 5–37.
- Crivelli, C., & Fridlund, A. J. (2018). Facial Displays Are Tools for Social Influence. Trends in Cognitive Sciences, 22(5), 388–399. doi.org/10.1016/j.tics.2018.02.006
- Ekman, P. (1999). Basic Emotions. In T. Dalgleish and M. Power (Eds.). Handbook of Cognition and Emotion. Sussex, U.K.: John Wiley & Sons, Ltd.
- Fu Ching-Sheue (2012). What are emotions in Chinese Confucianism? www.researchgate.net/publication/267228910_What_are_emotions_in_Chinese_Confucianism?
- Gendron, M., Crivelli, C., & Barrett, L.F. (in press). Universality reconsidered: Diversity in making meaning of facial expressions. Current Directions in Psychological Science.
- Harmon-Jones, E., Harmon-Jones, C., Summerell, E. (2017) On the Importance of Both Dimensional and Discrete Models of Emotion. Behav Sci (Basel). Sep 29;7(4)
- Murphy, F.C., Nimmo-Smith, I., & Lawrence, A.D. (2003). Functional neuroanatomy of emotion: A meta-analysis. Cognitive, Affective, & Behavioral Neuroscience, 3, 207–233.
- Phan, K.L., Wager, T.D., Taylor, S.F., & Liberzon, I. (2002). Functional neuroanatomy of emotion: A meta-analysis of emotion activation studies in PET and fMRI. Neuroimage, 16, 331–348.
- Plutchik, R. (2001) The Nature of Emotions. American Scientist 89(4):344
- Ringeval, F., Sonderegger, A., Sauer, J., & Lalanne, D. RECOLA & ANNEMO: diuf.unifr.ch/diva/recola/annemo.html
- Kipp, M. ANVIL: www.anvil-software.org
- Max Planck Institute for Psycholinguistics. ELAN: tla.mpi.nl/tools/tla-tools/elan
- Emotion, Stanford Encyclopedia of Philosophy: plato.stanford.edu/entries/emotion