Можно ли научить нейросеть определять иронию?
Этим вопросом задались учёные Санкт-Петербургского государственного университета и провели исследование фонетических и паралингвистических характеристик иронии. Они проанализировали фрагменты диалогов из фильмов и сериалов, записали речь дикторов и изучили их жесты и мимику по видеозаписям. Для определения звуковых особенностей иронии ученые использовали методы акустического, перцептивного и статистического анализа. О том, к чему это привело, рассказывает доцент кафедры фонетики и методики преподавания иностранных языков СПбГУ Ульяна Кочеткова.
доцент кафедры фонетики и методики преподавания иностранных языков СПбГУ
Разработчики нейросетей на основе больших мультимедийных корпусов и баз данных до сих пор сталкиваются с проблемой неправильного толкования ироничных высказываний, в которых конечный смысл не равен исходному лексическому. Подобные ошибки приводят к снижению эффективности разработанных программ и не позволяют осуществить полноценную коммуникацию между человеком и машиной. Чтобы решить эту проблему, первоначально нужно исследовать элементы, отличающие иронию от обычной речи, и затем научить нейросеть или другую модель использовать эту информацию.
Ирония — не столь забавный предмет для исследования, каким кажется на первый взгляд. Представим себе общение с иностранцем или с голосовым помощником. Мы можем согласиться с собеседником («Да, конечно!») или похвалить его («Замечательно!»). Но те же слова можно произнести иронично, и значение изменится на обратное. При этом ни иностранец (если только он не освоил все тонкости русской интонационной системы), ни голосовой помощник не заметят никакого подвоха, так как и в первом, и во втором случае смысл расшифровывается с опорой на слова. Именно этот тип иронии мы на кафедре фонетики и методики преподавания иностранных языков СПбГУ решили исследовать, поскольку на данный момент задача распознавания иронических высказываний по фонетических характеристикам до конца не решена ни в одном языке. А на материале русского языка подробный анализ звуковых характеристик иронии и вовсе до нас никто не проводил. Мы выиграли грант РФФИ «Акустические характеристики иронии в функциональных интонационных моделях» и в начале 2020 года приступили к работе над проектом. Впереди нас ждала увлекательная, но непростая работа, учитывая, что сроки проекта частично совпали с пандемией covid-19.
Создание корпуса иронической речи
Первым делом мы вместе со студентами собрали коллекцию иронических высказываний из открытых источников. Для этого пришлось просмотреть и прослушать более 200 часов российских фильмов, сериалов, теле- и радиоспектаклей, аудиокниг, выступлений комиков и артистов эстрадного жанра. Как ни странно, последние не особо жаловали тот тип иронии, который нас интересовал, а именно, иронию-отрицание. Шутили много, сарказма хоть отбавляй, а случаи, когда словами проговаривается одно, а интонацией выражается другое, встречались редко. К ним мы добавили тексты художественной литературы, искали авторские ремарки вроде «сказал он иронично» или «ответила она с ехидством». Набралось более 700 отрывков, которые мы проанализировали с точки зрения их звучания и контекста. Потом на основе проведенного анализа студенты сочинили свои тексты с вкраплениями ироничных реплик: сатирические, в стиле Паустовского, в виде сказки или эссе и другие. В текстах само слово «ирония» отсутствовало, иначе различия в его трактовке дикторами могли бы повлиять на результаты исследования. Сюжетная канва повествования была продумана так, чтобы ироническое оформление определенной реплики появлялось в чтении спонтанно и вытекало из логики текста.
В начале работы над текстами хотелось включить в них омонимичные, т.е. одинаковые по написанию и звучанию, но разные по значению реплики: с иронией и без иронии. Но для этого нужны были диалоги, в которых один собеседник передразнивает другого, а такой текст получался «токсичным». Даже если реплики с омонимичными фрагментами были разнесены во времени, повествование становилось скучным и искусственным, а это влияло на манеру чтения — пропадала естественность звучания и заинтересованность читающего. Однако необходимость в ироничных и неироничных высказываниях с идентичным словесным составом оставалась, так как только при их сравнении можно было сделать вывод о признаках, которые отличают ироническое звуковое оформление от высказывания без иронии, когда носитель языка говорит «всерьез», и мы должны понимать его буквально.
Итак, мы составили большое количество коротких монологов и диалогов из 2–4 фраз, в которые были включены одни и те же фрагменты. Например, «Он так блестяще выступил! Какой молодец!» и «Какой молодец! Ничего не делал, ни одного зачета не сдал, а теперь просит его не отчислять!».
Диктор читал набор из 60–80 таких мини-текстов, в которых разные фрагменты в случайном порядке были представлены в ироничном и неироничном контекстах. Диктору предлагалось прочитать их так, как он бы произнес подобные реплики при естественном общении. Иногда абсолютно нейтральные, на наш взгляд, фразы читались с иронией или просто очень эмоционально. Особенно это было характерно для профессиональных актеров или тех, кто занимался когда-то в театральной студии. В таких случаях мы просили перечитать и дать дополнительный вариант. За аудиозапись отвечали инженер звукозаписи и экспериментатор. В роли экспериментатора, в основном, выступали студенты, получившие большой опыт работы по созданию речевого корпуса как в части текстового материала, так и в части работы с дикторами.
Запись текстов проводили в звукозаписывающей студии кафедры с использованием профессионального оборудования. При согласии диктора одновременно с аудиозаписью провели видеозапись на Sony Handycam FDR-AX700 с частотой 100 кадров в секунду (кадры из видеозаписи приведены на Рис. 1). Всего записали 60 дикторов, получили больше 15 тысяч целевых фрагментов. На следующем этапе проводилась орфографическая и фонетическая аннотация материала.
Рис. 1. Запись дикторов на видеокамеру для фиксации мимики и жестикуляции.
Удалось получить и дополнительный материал: французскую речь без иронии и с иронией, а также с близкими ей эмоциональными значениями: удивлением и сомнением. Оказалось, что и в русском, и во французском больше всего общих черт имеют вопросы. Некоторая схожесть наблюдалась и в оформлении иронических восклицательных фраз типа «Как мило!» («Que c«est gentil!»). А вот мелодическое оформление повествовательных предложений различается так сильно, что носитель русского вряд ли услышит иронию во французской фразе, и наоборот: француз не распознает иронию в русском языке.
Перцептивные эксперименты
Существует мнение, что ирония не может появиться вне контекста и без собеседника, пусть и воображаемого, который должен уметь эту иронию распознать. К тому же, мы так хотим быть понятыми, что, как правило, стараемся донести смысл до своего визави всеми возможными способами: добавляем лексические и грамматические маркеры, указывающие на иронию (вроде «ишь, ну надо же, тоже мне» и т.п.), меняем порядок слов. Можно сравнить предложение «Мне нужна твоя сумка», которое будет прочитано нейтрально, и «Нужна мне твоя сумка», в котором мы сначала заподозрим иронию и только потом представим себе вариант с настойчивым убеждением. Но всё дело в том, что подобная избыточность информации присутствует не всегда и не везде. Особенно часто неоднозначные противоречивые реплики возникают в телефонном разговоре, а именно такой вид общения с голосовым помощником сегодня наиболее распространен.
Поэтому нас интересовал вопрос: смогут ли слушатели распознать иронию в тех фрагментах, которые будут «вырваны» из контекста, когда возможна опора лишь на звучание самого фрагмента? Для ответа на него мы вырезали из звукозаписи отрывки с идентичным словесным составом из ироничных и неироничных контекстов. На экране компьютера участники эксперимента видели оба контекста (два мини-текста), но для прослушивания давался только один звуковой фрагмент. Нужно было ответить, к какому отрывку текста он относится. Как и при записи дикторов, мы избегали упоминания самого термина «ирония», чтобы различия в его трактовке не повлияли на ответы участников.
Благодаря акустическому анализу тех пар фрагментов, в которых и фрагмент с иронией, и омонимичный ему фрагмент без иронии были правильно оценены большинством слушателей, мы смогли выявить наиболее яркие перцептивно релевантные (т.е. значимые для слушателя) фонетические характеристики иронии.
Результаты акустического анализа
Мы обнаружили, что не существует какой-то одной интонационной модели, которая в любом высказывании приводила бы к появлению иронического значения. Дело в том, что при выражении иронии мы стараемся создать контраст по сравнению с нейтральным оформлением, и при этом можем использовать как увеличение каких-то признаков (например, начинаем говорить громче, растягиваем слова, увеличиваем мелодический диапазон), так и их уменьшение (можем «пробурчать», как бы «про себя», передразнивая слова собеседника). Выбор в сторону увеличения или уменьшения связан с коммуникативным типом высказывания (повествование, вопрос, восклицание), лексико-грамматическим составом высказывания, а также с индивидуальными привычками говорящего. Подобная ситуация наблюдается и во французском языке, хотя значения конкретных параметров будут отличаться.
Еще одно интересное отличие иронических высказываний, которое оказалось универсальным для русского и французского языков, — появление «изломанного» мелодического контура (см. Рис. 2, 3).
Рис. 2. Интонационный контур вопросительного высказывания «Это мой сосед?», произнесенного без иронии (слева) и с иронией (справа), построенный с использованием Prosogram.
Рис. 3. Интонационный контур вопросительного высказывания «Elle a oublié?» (фр. «Она забыла?»), произнесенного без иронии (слева) и с иронией (справа), построенный с использованием Prosogram.
Таким образом в ходе нашего исследования были получены данные об акустических характеристиках, отвечающих за восприятие иронии носителями русского языка. Эти данные могут быть использованы разработчиками диалоговых систем «человек-машина». Важно и то, что дикторы, которые не очень ярко выражали иронию, всегда по-разному оформляли иронические и нейтральные высказывания с одним и тем же лексическим составом. По всей видимости, при выражении иронии говорящий обязательно отходит от существующей в его сознании модели нейтрального высказывания. Это наблюдение может помочь при разработке и усовершенствовании пользовательско-ориентированных (user-oriented) приложений. Кроме того, в ходе сравнительного исследования на материале русского и французского языков был сделан вывод и о некоторых универсальных характеристиках иронической речи.
Модификации звукового сигнала, ресинтез
Для того, чтобы понять, за счет каких параметров можно превратить нейтральное высказывание в ироничное и наоборот, мы применили методы модификаций звукового сигнала и ресинтеза мелодического контура. На нейтральные высказывания пересаживали характеристики ироничных, потом то же проделали и с исходными отрывками, в которых присутствовала ирония. С помощью программного обеспечения Praat и Wave Assistant мы модифицировали отдельные параметры (длительность, интенсивность, мелодику), а также провели их комплексные изменения в самых разных сочетаниях. Полученные ресинтезированные стимулы мы предъявили слушателям в перцептивных экспериментах. Результаты показали, что недостаточно пересадить длительность или интенсивность сигнала для того, чтобы изменилась его модальность. Необходимо пересадить также мелодические характеристики. При этом ироничные высказывания было труднее превратить в нейтральные, нежели наоборот. Это связано с тем, что при выражении иронии часто возникает особая тембральная окраска, которая до сих пор плохо поддавалась модификациям. Поэтому исключить ее из сигнала было сложно. Однако в настоящее время на кафедре ведется работа над изменением просодического тембра в звуковом сигнале; эти исследования являются передовыми в данной научной области.
Анализ иронии в актерской речи (на материале фильмов и сериалов)
Среди проблем, с которыми сталкиваются сегодня разработчики систем искусственного интеллекта, можно назвать и новую проблему, которая возникла при появлении первых систем аудиовизуального синтеза — синхронизация вербальной и невербальной информации.
Нам было интересно рассмотреть, будет ли совпадать жест (точнее, вершина жеста) с наиболее важной частью высказывания — ударным слогом слова, который является информационным фокусом высказывания. Эту часть высказывания принято называть ядром или интонационным центром. Почему это наиболее важная часть высказывания? Потому что от того, какое движение мелодической кривой наблюдается в этой части, зависит и наше восприятие коммуникативного типа высказывания: воспримем мы его как вопрос, как повествование или же как восклицание. Конечно же, когда мы (или машина) слышим частный вопрос, само вопросительное слово уже заставляет нас однозначно определить коммуникативный тип. Но в случае общего вопроса с прямым порядком слов всё усложняется. Отсюда и ошибки в его восприятии как в речи иностранцев, изучающих русский язык, так и при автоматическом распознавании машиной. Кроме того, мелодическая фигура не только в интонационном центре, но и за его пределами, отвечает за выражение и восприятие эмоциональной окраски или модальности, например, уверенности или неуверенности говорящего в своих словах.
Помимо совпадения или несовпадения жеста с границами фонетической единицы нам было интересно рассмотреть, существует ли параллелизм между движением тона (мелодической кривой) и жестом в интонационном центре высказывания в актерской речи. И, наконец, важно было выяснить, на какой из каналов слушатели и зрители опираются при восприятии иронического значения: на видеоряд или же на акустические характеристики. Для этого была проведена серия из 3 пилотных перцептивных экспериментов. В первом предъявлялись только аудио-фрагменты, вырезанные из контекста и не содержащие никаких грамматических маркеров иронии, т.е. лишенные какой-либо «подсказки». Во втором эксперименте предъявлялся только видеоряд для этих же фрагментов без звука. В третьем эксперименте зрителям предлагался полноценный аудиовизуальный сигнал, содержащий те же самые фрагменты, в которых по-прежнему отсутствовал какой-либо контекст или подсказка. Участникам экспериментов предлагалось соотнести аудио-, видео- или аудиовизуальный стимул с одним из контекстов — ироничным или нейтральным. В качестве материала мы отобрали отрывки с иронией-отрицанием из современных фильмов и сериалов, предварительно мы провели экспертный семантический и слуховой анализ. Выбор материала осложнялся тем, что зачастую реплики накладывались друг на друга, присутствовал фоновый шум, например, музыкальное сопровождение, в кадре отсутствовал персонаж, произносящий реплику, либо, наоборот, в кадре были другие действующие лица. Для того, чтобы материал состоял не только из иронических высказываний, были отобраны и реплики без иронии.
Результаты
Акустический и паралингвистический анализ показал, что все хорошо распознанные иронические и неироничные высказывания в эксперименте с аудио были синхронизированы с одним из жестов. Направление жеста в 100% случаев соответствовало направлению движения тона как в ироничных, так и в неироничных высказываниях. Вершина жеста совпала с началом ядра (интонационного центра). Большинство правильно оцененных иронических высказываний сопровождались движением головы, примерно в трети случаев наблюдалась дополнительная огубленность. Например, при произнесении гласного «а» или «и» губы округлялись, как при произнесении «у», чуть реже с интонационным центром совпадали движения руками или глазами. Интересно, что подобное совпадение было характерно и для актерской речи без иронии. Главным же отличием иронической мимики и жестикуляции стала ее комплексность — т.е. одновременная реализация нескольких движений. В нейтральной речи такие совпадения наблюдались гораздо реже.
Другим интересным фактом было то, что направление движения жестикулятора в большинстве исследованных отрывков, как ироничных, так и неироничных, совпадало с направлением движения тона — мелодической кривой. Например, актер или актриса одновременно с падением тона опускали руку вниз, опускали взгляд, делали кивок головой и т.д. (см. Рис. 4 и 5).
Рис. 4. Движение головой вниз на интонационном центре — ударном слоге ироничного восклицательного высказывания «Бедненький!».
Рис. 5. Мелодическое оформление интонационного центра — ударного слога ироничного восклицательного высказывания «Бедненький!».
Вероятно, это связано с психологической установкой — максимально передать какое-то состояние, ярко выразить эмоцию, подчеркнуть значение слова — в актерской профессии. Отсюда и параллелизм при использовании различных вербальных и невербальных средств. Кроме того, актерская речь является речью подготовленной, которой можно противопоставить спонтанную речь. Существует мнение, что в спонтанной речи синхронизация с интонационным центром, параллелизм в направлении движения жестикулятора и мелодической кривой будут встречаться реже.
Сравнение трех экспериментов с предъявлением различных вариантов одних и тех же отрывков (только звук, только изображение, звук и изображение вместе) показал, что решающим при восприятии актерской речи является видеоряд. Однако за этим простым выводом скрываются любопытные факты. Например, в некоторых отрывках слушатели хорошо распознали иронию на слух, когда же они были предъявлены в видео-формате без звука, распознавание было ошибочным. При показе того же отрывка в привычном аудиовизуальном формате, среди участников не наблюдалось полного согласия, что несколько удивило нас как исследователей. Один из таких отрывков приведен ниже: ироничную реплику «Ну спасибо!» актер оформляет нисходящим тоном и одновременно поднимает руки (Рис. 6).
Рис. 6. Мелодическое и жестовое оформление ироничного восклицательного высказывания «Ну спасибо!».
В эксперименте без видео большинство участников правильно оценили в этом стимуле наличие иронии, в эксперименте с видео без звука большинство оценили отрывок как неироничный. Вероятно, у носителей языка существует представление о том, как видеоряд может сочетаться со звуковым оформлением. И несоответствия между ними приводит к замешательству, неточному пониманию в случае естественной речи или же к восприятию неестественности и даже к появлению эффекта «зловещей долины» в случае синтезированного аудиовизуального сигнала. Поэтому исследование вариантов синхронизации жестов, мимики и интонационного оформления, а также проявлений параллелизма между ними представляется крайне важной и актуальной задачей в эпоху развития голосовых помощников и аудиовизуальных интерфейсов, создаваемых с использованием систем искусственного интеллекта.
Итак, можно ли научить нейросеть определять иронию?
Наш ответ — да, можно. О том, как мы собирали данные и изучали акустические и паралингвистические характеристики иронии в речи, вы уже узнали из этого материала. Мы также сделали первые попытки в обучении нейросети автоматически распознавать иронию, и они завершились успешно. Подробнее об этом расскажем в следующем материале.
Но главное — то, что в результате проведенного нами фундаментального исследования были получены ценные сведения об отличиях иронической речи от неиронической. В ходе экспертного анализа мы установили значения тех параметров, которые могут быть использованы как при дообучении нейросети, так и напрямую — не прибегая к нейросетевым технологиям — в экспертных системах и метриках для автоматического определения наличия или отсутствия иронии в сигнале. Ведь при решении конкретной задачи нейросеть, как правило, необходима в тех случаях, когда не хватает знаний о точных параметрах в той или иной предметной области, и эта проблема решается за счет обработки большого объема данных.