Анализ тональности в русскоязычных текстах, часть 2: основные исследования31.08.2020 18:18

Исследователи применяли анализ тональности для совершенно разных русскоязычных текстов: постов из соцсетей, отзывов, новостных статей и книг. Как следствие, результаты их исследований тоже были совершенно разными и крайне интересными. Например, кто бы мог подумать, что тексты с положительной тональностью делают обучение иностранному языку более интересным, но менее эффективным? В этой серии статей мы рассмотрим, как и для каких целей применялись подходы анализа тональности для русскоязычных текстов, каких результатов удалось достичь, какие проблемы возникали, а также немного поговорим о перспективных направлениях.

В отличие от предыдущих работ я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации. В первой статье мы обсудили, что такое «анализ тональности», какой он бывает и как его за последние 8 лет применяли для анализа русскоязычных текстов. В этой части мы детально рассмотрим каждое из 32 основных исследований, которые мне удалось найти. В третьей и заключительной части (будет на следующей неделе) поговорим об общих сложностях, с которыми сталкивались исследователи, а также о перспективных направлениях на будущее.

NB: Статья писалась для научного журнала, поэтому будет много ссылок на источники.

Во многих исследованиях использовались данные из российских соцсетей и агрегирующих платформ. Ниже приведено краткое описание самых популярных российских и зарубежных ресурсов и статистика их использования.

ВКонтакте доступна более чем на 90 языках, но преимущественно используется русскоговорящими. Согласно отчёту Deloitte [98], это самый популярный российский сайт, которым пользуется до 70% населения страны. ВКонтакте активно использует молодёжь в возрасте 16—24 года, а среди более старшей аудитории значимость ВКонтакте снижается.
YouTube занимает второе место по популярности в России, им пользуется до 62% населения. Его активно использует молодёжь в возрасте 16—24 года, а доли более старших возрастных групп варьируются в диапазоне 58—64%.
Twitter входит в десятку самых популярных в России сайтов [98], его использует до 5% населения. Распределение возрастных групп пользователей в диапазоне 25—65 лет почти равномерное, пик приходится на группу 55—64 года.
LiveJournal тоже входит в десятку самых популярных в России сайтов, его использует до 3% населения. Он больше востребован среди пользователей в возрасте 35—44 года, а также у более старших поколений.
Medialogia — российская компания, разрабатывающая автоматизированные системы для мониторинга и анализа в реальном времени СМИ и соцсетей. В сутки она автоматически обрабатывает 500 тыс. сообщений в СМИ и 100 млн сообщений в соцсетях. Система собирает данные из 52 000 источников в СМИ и из 900 млн аккаунтов в соцсетях.
IQBuzz — сервис мониторинга, обрабатывающий информацию из более чем 10 000 источников в СМИ, из Facebook, Twitter, ВКонтакта, Моего Мира, Instagram, 4sq, LiveJournal, LiveInternet, Google, YouTube, RuTube и прочих. Система умеет автоматически определять позитивные и негативные сообщения, дедуплицировать и выполнять сложный поиск по накопленной базе данных.

Ниже я опишу найденные исследования, полученные в них результаты и сделанные авторами выводы, которые могут не совпадать с моей позицией.

1. UGC в соцсетях

Многие соцсети превратились в современные инструменты социального вовлечения [53]. Генерируемые пользователями данные являются важным и доступным источником общественного мнения, или хотя бы его отражением, поэтому он может дополнять или подменять собой опросы общественного мнения [54]. Генерируемые пользователями данные были исследованы по трём критериям:

Отношение к разным темам.
Индексы социального настроения.
Особенности пользовательского взаимодействия с данными, выражающими разные настроения.

1.1. Отношение к разным темам

Самыми частыми темами в исследовании русскоязычных текстов стали проблемы межэтнических отношений и миграции, а также Украинский кризис. Значительное внимание было уделено и анализу социальной напряжённости, а также другим темам.

1.1.1 Этнические группы и мигранты

Проблемы межэтнических отношений и миграции, а также связанные с ними темы, были глубоко исследованы с помощью хорошо проработанных социологических методов. Тем не менее, быстрое развитие интернета и обработки естественного языка позволило провести исследования по относительно новому подходу. Соцсети позволяют открыто участвовать в конфликте как отдельным людям, так и группам. В интернете суждения о проблемах миграции и этнических групп могут распространяться гораздо быстрее и охватывать гораздо более широкую аудиторию, чем до эпохи интернета [54]. Более академические исследования доказали, что негативное онлайн-содержимое влияет на офлайновые межэтнические конфликты [99] и преступления на почве ненависти [100]. Таким образом, по мере развития интернет-технологий растёт важность анализа проблем межэтнических отношений и миграции на основе онлайн-содержимого.

Исследование, проведённое Бодруновой и коллегами, было посвящено отношению русскоязычного онлайн-сообщества к мигрантам в публичном дискурсе [81]. Авторы собрали 363 579 постов ведущих российских блогеров в период с 4 февраля по 19 мая 2013 года. Применив стратегию, описанную в [59], [101], исследователи с помощью латентного размещения Дирихле (Latent Dirichlet Allocation [102]) выявили релевантные дискуссии. Затем вручную разметили некоторые обсуждения и классы тональности. Далее обучили модель биноминальной логистической регрессии (Binomial Logistic Regression [32]) для ряда задач классификации текста, в том числе для классификации эмоций. Согласно результатам, негативно воспринимались все мигранты, и больше всего прибывшие с Северного Кавказа по сравнению с выходцами из Центральной Азии и американцами. Позитивного отношения не выявлено ни к европейцам, ни к американцам. При этом европейцы, американцы и кавказцы воспринимались как агрессоры, а не жертвы. Выходцы из Центральной Азии описывались как чужие с негативной коннотацией. В целом, европейцы не воспринимались чужими или партнёрами, американцы воспринимались опасными, а евреи — совершенно неопасными. Авторы исследования утверждают, что постсоветское ментальное разделение населения не полностью совпадает с текущими географическими границами, из-за которых ранее близкие группы уже воспринимаются как раздельные нации со своими политическими повестками. Одним из главных недостатков этой работы является отсутствие оценки качества описания данных и спецификации метрик классификации.

Коллектив под руководством Кольцовой [82] с помощью адаптированных методов из предыдущих работ ([103], [104]) оценил общий объём относящихся к межэтническим отношениям дискуссий на сайтах русскоязычных соцсетей. Для создания первичного корпуса из 2 660 222 текстов авторы разработали сложный список этнонимов и биграмм, охватывающий 97 этнических групп на постсоветской территории. Затем с помощью ручной разметки создали обучающий набор данных из 7 181 текста, каждый из которых аннотировался тремя специалистами по нескольким критериям, включая наличие межгрупповых конфликтов, положительные межгрупповые контакты и общую негативную или позитивную тональность. Для классификации эмоций авторы обучили на размеченном наборе данных модель логистической регрессии [32] и добились F1=0,75 для позитивной тональности и F1=0,68 для негативной. Авторы выяснили, что внимание к этническим группам сильно варьируется между разными группами и регионами. На основе этого исследования коллектив под руководством Кольцовой улучшил качество полученных результатов и увеличил количество предрассудков, которые можно найти в следующей работе [83]. Для начала авторы увеличили набор данных для ручной обработки с 7 181 до 14 998 уникальных текстов. Затем тексты были размечены как минимум тремя независимыми специалистами. Далее авторы научили модель логистической регрессии делить тексты на три категории (позитивное, нейтральное и негативное отношение) с помощью лучших гиперпараметров, взятых из предыдущего исследования. Это помогло значительно улучшить метрики классификации. Средние значения для настроений составили: P=0,67, R=0,55 и F1=0,58.

Нагорный в своей работе [84] исследовал тему структуры этнических дискуссий в русскоязычных соцсетях. На основе списка из более чем 4000 слов, относящихся к этническим дискуссиям, автор собрал из ВКонтакта и IQBuzz 2 659 849 текстов за период с января 2014-го по декабрь 2016-го. Далее автор воспользовался ISLDA [26] — модификацией алгоритма LDA, разработанной в Лаборатории интернет-исследований ВШЭ. Для вычисления класса тональности Нагорный применил SentiStrength [22] с русскоязычным словарём эмоций LINIS Crowd [26]. Для каждой темы был вычислен индекс полярности как сумма произведений вероятности этой темы в тексте на значение соответствующей эмоции, делённое на общую значимость темы. Проанализировав тематический профиль этнических дискуссий, полученный с помощью LDA, Нагорный выявил наиболее негативные и важные темы. Выяснилось, что основная часть дискуссий относилась к русско-украинским отношениям в связи с недавним конфликтом между странами. В результате трудно было отделить межэтнические темы от политических, поскольку конфликт повлиял на полярность дискуссий в интернете. Наиболее негативные обсуждения связаны с узбекской национальностью и турецко-армянскими отношениями в контексте геноцида армян. Однако у этого исследования есть недостатки. Во-первых, непонятно, как именно собирались данные. Хотя IQBuzz заявляет, что отслеживает все упоминания в интернете, проверить это без полного доступа к сообщениям ВКонтакте невозможно. Во-вторых, метрики классификации не измерялись на больших наборах текстов, поэтому трудно проверить качество классифицированных эмоций.

Исследователи Бородкина и Сибирев из Санкт-Петербургского университета изучили дискуссии в русскоязычном Twitter, относящиеся к проблемам международной миграции, а также к различным проблемам, связанным с миграцией [55]. Авторы использовали 13 200 сообщений, опубликованных с ноября 2017-го по февраль 2018-го. Эти данные были собраны по теме «миграция» и связанным ключевым словам. Затем авторы с помощью коэффициента Охаи измерили сходство тэгов и по принципу Парето убрали из графа сети незначительные, слабые связи. Для анализа тональности обучили классификатор на основе модели опорных векторов [33]. А для определения связей между характеристиками (например, эмоциями, особенностями содержимого) использовались соответствующие методы анализа. Выяснилось, что среди русских, живущих в разных странах, весьма схожее отношение к мигрантам. Значительная доля пользователей выражает негативное отношение к мигрантам других национальностей. Основные обсуждаемые темы: риски для культуры и безопасности, связанные с терроризмом и нелегальной миграцией, права человека в целом, нарушение прав иммигрантов в России в социальной и экономической сферах. У этого исследования есть несколько небольших недостатков. Подход к анализу тональности описан кратко, без подробностей стадии предварительной обработки, гиперпараметров модели и финального качества классификации с помощью обученной модели. Кроме того, базовый API Twitter предоставляет лишь частичный доступ ко всем сообщениям, так что репрезентативность проанализированных данных под вопросом.

Таким образом, в контексте исследования проблем миграции и межэтнических отношений исследователи по большей части изучали сгенерированные пользователями данные из социальных сетей, применяя комбинации методов тематического моделирования и анализа тональности. Концепция этнической принадлежности хорошо исследована в академической литературе, но с точки зрения вычислительной лингвистики определение национальности в пользовательских текстах сводится к задаче определения этнических маркеров, использованных авторами этих текстов [54]. Поэтому для выявления релевантных текстов исследователи часто создают списки маркеров этнического статуса и ищут тексты, содержащие такие маркеры. Однако извлечение репрезентативных данных — задача трудная, потому что не все платформы дают полный доступ ко всей своей информации. Затем обычно анализируются настроения на уровне документов или аспектов. Поскольку негативные выражения могут содержать личную информацию, а также оскорбительные или разжигающие ненависть высказывания, такие данные могут подвергаться цензуре в соответствии с правилами соцсетей и требованиями законодательства. В Уголовном кодексе Российской Федерации есть нормативная база, регулирующая публичные призывы к радикальным действиям, что должно повлиять на объем сильных негативных высказываний как в онлайновых, так и в оффлайновых дискуссиях. Все эти особенности нужно явно описать в разделе, посвящённому ограничениям.

1.1.2. Украинский кризис

Отношения между Россией и Украиной стали напряжёнными после революции в 2014-м, последующего входа Крыма в состав РФ и вооружённого конфликта на территории Донецкой и Луганской областей. Поскольку многие соцсети превратились в современные инструменты социального вовлечения [53], был проведён ряд исследований в сфере вычислительной лингвистики, авторы которых попытались изучить возможность использования онлайнового дискурса для анализа высказанных мнений и характеристик участников дискурса. Согласно проведённой в 2001-м переписи населения Украины, 67,5% её жителей считают родным языком украинский, а 29,6% — русский. Поэтому в дополнение к украинскому или вместо него исследователи обычно анализировали русскоязычные тексты.

Группа исследователей под руководством Дувановой изучила влияние Украинского вооружённого конфликта на онлайновые социальные связи между всеми украинскими областями [85]. В качестве источника авторы использовали ВКонтакте, так как это самая популярная соцсеть в Украине. Сначала на основе ключевых слов они определили список релевантных сообществ — 14 777. Затем на основе этого списка было собрано 19 430 445 публикаций и 62 193 711 комментариев с помощью ПО для мониторинга соцсетей, представленного в работе Семёнова и Вейялайнен [105], а также Семёнова и соавторов [106]. Для классификации текстов на позитивные и негативные авторы применили подход на основе правил со словарём из 8863 позитивных и 24 299 негативных слов на русском и украинском языке. Выяснилось, что дискуссии в Украине стали более поляризованы в связи с военными действиями, например, в восточных областях страны выросло количество негативных и позитивных высказываний. Однако в других частях Украины военные действия не оказали заметного эффекта на интенсивность выражения эмоций. Таким образом, военные действия вызвали сильную эмоциональную реакцию в стране, но во внутренних коммуникациях между регионами не было отмечено неизбежного увеличения социальной сплоченности. Однако авторы не сообщили подробностей о предварительной обработке и обучении модели, а также о метриках классификации.

В работе коллектива под руководством Волковой [86] изучались выражения во ВКонтакте общественного мнения в ходе российско-украинского кризиса. На основе списка ключевых слов авторы собрали из ВКонтакта набор из 5 970 247 публикаций, появившихся в период с сентября 2014-го по март 2015-го. Для целенаправленного прогнозирования мнений исследователи применили систему классификации POLYARNIK [107] на основе морфологических и синтаксических правил, эмоциональной лексики и моделей обучения с учителем [108]. Для классификации эмоций авторы собрали набор независимых дискуссий в Twitter, связанных с кризисом. С помощью подходов, описанных в работах [109] и [110], авторы реализовали автоматическую разметку текстов по шести базовым эмоциям Экмана [111]. Затем они вручную перепроверили автоматическое аннотирование с помощью носителей русского и украинского языка. В результате получился набор из 5717 Twitter-сообщений с выражением злости, удовольствия, страха, печали, отвращения и удивления, а также 3947 сообщений, не выражающих эмоций. Финальная классификация эмоций, выраженных в текстах, осуществлялась в два этапа. Сначала тексты классифицировали как эмоциональные и безэмоциональные. Затем с помощью модели логистической регрессии [32] эмоциональные тексты разделялись по шести классам на основе стилистики, лексики и бинарных униграмм. Взвешенная F1-мера модели эмоциональной классификации достигла 58%. Согласно полученным результатам, доля позитивных мнений в отношении Евромайдана была в Украине выше, чем в России. Для сравнения, доля позитивных высказываний в отношении Путина и Крыма была выше в России, чем в Украине. Кроме того, некоторые результаты противоречат распространённым заблуждениям, тиражируемым в СМИ. Например, в России были публикации, авторы которых положительно высказывались в пользу США и против Путина, а в Украине были публикации, выражавшие поддержку Путину, а не Евромайдану. Основным недостатком исследования является то, что авторы применили POLYARNIK для анализа тональности без оценки качества классификации текстов по выбранной теме. Более того, авторы применили обученную на Twitter-сообщениях модель для распознавания эмоций в сообщениях из ВКонтакта, у которых иные лингвистические характеристики, как минимум, средняя длина текста. Также возникает много вопросов к качеству аннотирования единственным асессором, поскольку невозможно измерить метрики межэкспертного соглашения.

Взяв за основу российско-украинский конфликт 2014-го, Румшиский и соавторы проанализировали динамику отражения политического конфликта в соцсетях [87]. В отличие от исследования Волковой [86], при создании корпуса текстов для анализа исследователи не полагались на зашумлённые данные о местоположении авторов. Вместо этого они ориентировались на самоидентификацию пользовательских групп, связанных с кризисом. Проанализировав данные ВКонтакте, исследователи вручную выбрали 51 антимайданную группу с 1 942 918 уникальными пользователями, и 47 промайданных групп с 2 445 661 пользователем. Затем выделили все публикации на стенах этих групп, добавили публикации со стен активных пользователей и тех, кто поставил этим публикациям лайки. В коллекцию добавлялись только те публикации, в которых встречалось хотя бы одно ключевое слово из заранее определённого списка. Для прогнозирования тональности русскоязычных текстов исследователи применяли улучшенную версию библиотеки SentiMental, представляющую собой систему анализа тональности на основе словаря. Результаты исследования подтвердили, что рост интенсивности конфликта сопровождается негативными высказываниями. В ходе анализа исследовалась связь между доминирующей тональностью и мерой случайного блуждания дискуссии (random walk controversy measure). По мере роста количества диспутов одновременно растёт стандартное отклонение общей тональности, выражаемой противоположными группами, а также мера случайного блуждания дискуссии. Главный недостаток исследования заключается в том, что его авторы не предоставили никаких подробностей о предварительной обработке и обучении.

Заезьев предложил изучать процесс политической мобилизации с помощью анализа содержимого соцсетей [88]. За основу была взята Украинская революция 2013–2014 годов. Автор сосредоточился на первом этапе протестов, с 21 февраля 2013 по 22 февраля 2014. Он проанализировал публикации в самых популярных соцсетях Украины: ВКонтакте и Facebook. Заезьев определил набор релевантных ключевых слов на основе общих рекомендаций Годбоула [112], а затем с помощью IQBuzz собрал больше 124 000 сообщений. Применив алгоритмы распознавания тональности IQBuzz, исследователь классифицировал тексты по категориям: негативные, нейтральные, позитивные и смешанные. Предположив, что сторонники Евромайдана будут выражать позитивное отношение к этому событию, авторы убрали из коллекции все непозитивные сообщения. Затем отфильтровали коллекцию по заранее определённому списку ключевых слов, оставив 4255 сообщений. Анализ этих данных выявил, что в самую первую ночь протестов социальные сети использовались преимущественно как инструмент политической мобилизации, а позднее — как инструмент медийного освещения. Главный недостаток исследования в том, что в нём не описаны метрики классификации тональности, поэтому трудно проверить точность результатов.

Исследователь Токарев из Московского государственного института международных отношений изучил дискурс в среде основных украинских блогеров относительно территории и населения Донбасса в период с 2009 по 2018 годы [56]. Автор проанализировал семантику, частоту и эмоциональность обсуждений в украинском сегменте Facebook. Исследование состояло из нескольких этапов. Сначала были определены лидеры мнений и скачаны их публикации с 1 января 2009 по 15 февраля 2018. Затем на основе заранее определённых ключевых слов из дискурса авторы определили публикации, посвящённые Донбассу. На следующем этапе был создан словарь эмоций, который в дальнейшем применялся для дифференцирования дискуссий по степени их эмоциональности. С помощью добровольцев был собран словарь из 566 слов-маркеров для территории и населения. Каждое слово было представлено на русском и украинском. Затем команда из 69 асессоров аннотировала словарь по пяти классам: позитивные, нейтрально-позитивные, нейтральные, нейтрально-негативные и негативные. Наконец, была оценена степень выражения эмоций и динамика дискуссий. Был проанализирован корпус из 1 069 687 публикаций 376 основных блогеров на семи языках. Выяснилось, что начало дискуссий по поводу территории и населения Донбасса началось на рубеже 2013–2014 годов. До этого частота упоминания этой области была почти нулевой. Выражалось значительное негативное отношение к населению, а негативное обсуждение территории практически отсутствовало. Превалировала нейтральная тональность. Количество позитивных и негативных обсуждений территории было гораздо меньше по сравнению с обсуждениями населения. Это позволяет сделать вывод о высокой степени неопределённости среди основных блогеров в отношении территории, а также о низкой вероятности перехода дискурса из нейтральной в позитивную тональность. Недостатки у этого исследования такие же, как у работы Заезьева [88], отсутствует описание метрик классификации.

Таким образом, в ходе исследования Украинского кризиса исследователи использовали информацию не только о тональности, но и о местопребывании авторов публикаций, чтобы изучить территориальную привязку пользователей. Для определения релевантных текстов собирался список слов-маркеров, относящихся к конфликту, и искались тексты, содержащие эти маркеры. При анализе этнических групп или проблем, связанных с миграцией возникают сложности в извлечении репрезентативных данных и исчерпывающем описании сопутствующих ограничений.

1.1.3. Социальная напряжённость

Процессы, наблюдаемые в современном российском обществе, формируют потребность в помещении социальных конфликтов в конкретные рамки [113]. Учитывая широкое распространение социальных сетей, несущих выгоду и риски для гражданского общества [114], анализу онлайн-содержимого следует уделять должное и надлежащее внимание, в том числе для выявления социальной напряженности. Можно измерять социальную онлайн-напряжённость с помощью индексов и метрик, а затем использовать эту информацию для отслеживания всплесков напряжённости, что представляет собой некую форму «опережающего управления» (anticipatory governance) [115].

Коллектив под руководством Донченко проанализировал комментарии ВКонтакте по социально-острым темам за период с января по июнь 2017 [89]. Исследователи составили список популярных тем, связанных с проблемами социальной напряжённости, и по нему собрали через API ВКонтакта релевантные пользовательские публикации. Затем тексты предварительно обработали: выделили основу слов (стемминг), убрали пунктуацию, заменили стандартные аббревиатуры и сленговые слова на соответствующие нормальные слова. Для категоризации по темам авторы обучили модель опорных векторов (SVM) [33] с векторизацией TF-IDF [116]. Остросоциальные темы: безработица, коррупция и рост цен на потребительские товары. Также с помощью SVM-модели классифицировали полярность тональности. Выяснилось, что протестные настроения обычно концентрируются в центрах густонаселённых регионов. Один из главных недостатков работы заключается в отсутствии оценки качества аннотирования данных и отсутствии спецификации метрик классификации тональности. Кольцова и Нагорный выяснили, какие темы относят к социальным проблемам, проанализировав комментарии читателей региональных российских СМИ [57]. Авторы собрали набор из 33 887 новостей и 258 107 комментариев с сайтов омских СМИ (Город55, БК55, НГС Омск и Омск-Информ) за период с сентября 2013 по сентябрь 2014. Чтобы определить темы, к которым относятся новостные тексты, авторы воспользовались Gensim-реализацией [117] алгоритма латентного размещения Дирихле [102] с метрикой, разработанной авторами Arun, Suresh, Madhavan и Murthy [118]. Для классификации тональности комментариев авторы использовали SentiStrength [22] с лексикой PolSentiLex. Кольцова и Нагорный обнаружили, что такие темы, как развлечения, культура, спорт и праздники чаще всего вызывают позитивные эмоции, а большинство негативных эмоций связаны с преступностью и катастрофами. Исследователи вычислили индекс важности и полярности каждой темы. Фундаментальной проблемой использования SentiStrength в этом исследовании является то, что авторы не описали метрики классификации данных по выбранной теме, поэтому трудно проверить точность результатов.

Таким образом, для идентификации остросоциальных тем авторы применяли два подхода. В первом случае данные фильтруются на основе списка ключевых слов, а во втором применяется неконтролируемая кластеризация всех данных с последующим определением остросоциальных тем. При использовании данных из соцсетей авторы столкнулись с теми же трудностями извлечения репрезентативных данных. Однако это не актуально при анализе данных с новостных сайтов, потому что на них обычно нет ограничений по доступу к опубликованной информации. Поскольку дискурс по остросоциальным темам может сопровождаться жёсткими высказываниями, последние могут подвергаться цензуре в соответствии с пользовательскими соглашениями и законодательством.

1.1.4. Прочие темы

Ряд исследований был посвящён темам из других сфер. Исследователь Рулёва изучала реакцию в русскоязычных пользователей Twitter и YouTube на взрыв метеора над Челябинском в феврале 2013 [58]. За последние 100 лет это было крупнейшее небесное тело, вошедшее в атмосферу Земли. Вполне ожидаемо, что это событие спровоцировало эмоциональные дискуссии в традиционных СМИ и на онлайн-платформах. Исследователь собрал по хэштегу «метеорит» 495 Twitter-сообщений, опубликованных с 15 по 20 февраля 2013, а также не указанное количество видео на YouTube. Был сделан акцент на сравнительный анализ содержимого с обеих площадок в контексте различий между первичным и вторичным разговорными жанрами [119]. Тем не менее, в текстах была также дана определенная интерпретация чувств и эмоций.

Рулёва обнаружила, что содержимое YouTube предоставляет больше полезных данных для исследования тональности по сравнению с Twitter. Автор опиралась на жанровый анализ и смесь лингвистического и семиотического анализа. То есть она анализировала сам текст и то, как он представлен. Автор полагает, что пользователи YouTube и Twitter часто принадлежат к разным социальным группам, поэтому могут иметь разные паттерны выражения эмоций. Хотя исследование в целом опосредованно связано с эмоциональными аспектами текста, Рулёва была одной из первых, кто исследовал различия между разными видами русскоязычной информации. Однако отсутствует подробное описание метода сравнения тональности и процедуры сбора данных в YouTube. Для поиска данных в Twitter применялась базовая фильтрация, при которой игнорировалась огромная часть сообщений, в которых отсутствовал хэштег «метеорит». Более того, без использования Historical API поисковый инструмент Twitter даёт лишь частичный доступ ко всем сообщениям в открытом доступе.

Кириленко и Степченкова провели сравнительное исследование русскоязычного и англоязычного дискурса в Twitter об Олимпиаде 2014 в Сочи [90]. Через API Twitter было собрано больше 400 000 сообщений за полугодовой период, охватывающий Олимпийские игры [120], а затем подвергли кластерному анализу и анализу тональности в отношении состязаний. Авторы оценивали подходы Deeply Moving [121], Pattern и SentiStrength [22] на размеченном вручную наборе из 600 англоязычных и 3000 русскоязычных Twitter-сообщений. Несмотря на усиление выражения позитивного отношения к Олимпиаде в течение игры, это улучшение было значимо только для сообщений россиян. Впрочем, авторы не предоставили метрики классификации для оцениваемых моделей, а также не описали этап предварительной обработки.

Коллектив под руководством Спайсера изучил волну массовых протестов в связи с выборами в Думу и на пост президента РФ в период 2011–2012 [91]. Исследователи проанализировали релевантные русскоязычные сообщения в Twitter с 17 марта 2011 по 12 марта 2012, собранные через Twitter Streaming API. Данные выбирались по списку ключевых слов. Было собрано 690 297 русскоязычных сообщений, относящихся к политике. Для определения сторонников и противников Путина авторы использовали комбинацию списка ключевых слов и SentiStrength [22], а затем классифицировали 1000 самых активных пользователей по среднему баллу тональности их сообщений и по принадлежности к одной из сторон. Сравнив ручные аннотации 100 пользователей с обеих сторон с автоматической классификацией, исследователи обнаружили, что около 70% участников были классифицированы корректно. В конце авторы применили метод качественного исследования [122] и вручную закодировали ключевые извлечённые n-граммы. Один из главных выводов заключается в том, что дискурс в Twitter вначале активно поддерживался оппозицией, а позднее мобилизация оппозиции значительно снизилась и выросла поддержка Путина. Однако у этого исследования несколько недостатков. Во-первых, непонятна репрезентативность образцов данных, потому что Twitter Streaming API предоставляет только частичный доступ ко всем публикациям. Во-вторых, метрики классификации не измерялись на целевой коллекции текстов, поэтому трудно проверить качество классификации тональности.

Ненко и Петрова провели сравнительный анализ распределения эмоций в Санкт-Петербурге на основе пользовательских комментариев о городских объектах в Google Places и данных из открытой ГИС-системы Imprecity [92]. Набор данных содержал 1800 маркеров эмоций из Imprecity и 2450 комментариев с привязкой к месту из Google Places. Два ассессора разметили комментарии на шесть эмоций и обработали с помощью наивного байесовского классификатора [123]. На основе результатов анализа тональности и набора данных из Imprecity авторы создали тепловую карту негативных и позитивных эмоций в Санкт-Петербурге. Общей тенденцией является концентрация позитивных и негативных эмоций в историческом центре на юге города, на западной оконечности Васильевского острова и в центре Петроградского острова. Однако авторы не описали методику предварительной обработки и метрики классификации.

Таким образом, изучая отношение к различным событиям или местам, исследователи столкнулись с теми же трудностями при поиске репрезентативных данных и исчерпывающем описании ограничений. Кроме того, основным недостатком большинства исследований было отсутствие оценки модели анализа настроений в текстах по выбранным темам, поэтому сложно проверить качество классификации.

1.2. Индекс социальных настроений

При измерении уровня счастья и удовлетворения жизнью, например, с помощью индекса субъективного благополучия (SubjectiveWell-Being (SWB)) [124], современные психологические подходы опираются на самооценочные шкалы. У таких подходов есть недостатки. Например, ограниченное количество интервью, высокая стоимость опроса респондентов и зависимость от памяти участников затрудняет представление статуса респондентов в реальном времени [125]—[127]. В качестве альтернативы исследователи попытались измерять различные индексы социальных настроений с помощью анализа тональности информации, потому что в генерируемых пользователями данных в соцсетях выражается широкий диапазон мнений [2], [127]—[133].

В своей работе [93] Панченко вычислил индекс настроений в русскоязычном Facebook в виде среднего уровня эмоций в массиве текстов. Было проанализировано 573 000 000 анонимизированных публикаций и комментариев за период с 5 августа 2006 по 13 ноября 2013, предоставленных для исследования ООО «Дигсолаб». Авторы профильтровали весь набор русскоязычных текстов с помощью модуля langid.py [134]. Индекс социальных настроений вычислялся с помощью подхода на основе словаря [135], [136], аналогичного подходу Додда [129]. Автор разработал свой словарь эмоций из 1511 терминов, размеченный двумя специалистами на позитивные и негативные классы. Для оценки качества классификации Панченко применил словарный подход к набору данных ROMIP 2012 [15]. Автор утверждает, что на наборе рецензий на фильмы добился значения макроусреднённого F1-балла до 0,383 и точности до 0,465. Для измерения тональности автор предложил четыре индекса: индекс тональности слов (Word Sentiment Index), индекс эмоциональности слов (Word Emotion Index), индекс тональности текста (Text Sentiment Index) и индекс эмоциональности текста (Text Emotion Index). Первые два оперируют тональностью слов, а вторые два — тональностью текста. Согласно результатам анализа, позитивное содержимое превалирует над негативным. Максимальные значения индексов совпадают с государственными праздниками, а мини