Учёные описали алгоритм автоматического анализа текстов Толкина на основе ИИ
Старший научный сотрудник института искусственного интеллекта AIRI Илья Макаров и выпускница ВШЭ Анастасия Ященко описали алгоритм автоматического анализа литературных произведений на основе ИИ. Исследователи проанализировали системы персонажей книг Джона Рональда Руэла Толкина, рассказали информационной службе Хабра в пресс‑службе института AIRI.
Описанный метод определяет персонажей по репликам, описаниям и характеру взаимоотношений. По словам исследователей, технология применима для обучения диалоговых ботов, переводчиков и может сэкономить время при поиске информации в больших объёмах текста.
Для компьютерных систем распознавание имён людей, названий животных, организаций, топонимов представляется непростой задачей. Распознавание именованных объектов (Named Entity Recognition, NER) — это тип обработки естественного языка (Natural Language Processing, NLP), помогающий компьютерным системам идентифицировать и классифицировать объекты.
С помощью технологии NER и теории графов двое учёных обучили алгоритм автоматического анализа произведений на материале работ Толкина и опубликованных после смерти писателя записях под редакцией его сына. В список вошли «История Средиземья», «Властелин колец» и «Хоббит». Система обучилась распознавать именованные сущности, анализировать тональность текста и обнаруживать сообщества.
При использовании технологии токенизации исследователи извлекли из текста 156 482 предложения и в режиме «ручной настройки» получили список из 518 имён, 15 расовых лейблов и биографических фактов. Этот список приняли за «золотой стандарт». Далее текст привели к нижнему регистру и убрали случаи перифраза и сокращений, заменив их универсальным именем. Позже список уточнили в автоматическом режиме, использовав более 4 тысяч наиболее распространённых английских слов. Общее количество наименований для анализа составило 880 имён.
Далее для отображения связей между персонажами использовали пары имён, основанные на совместной встречаемости и обогащённые метаданными из индекса имён (семейные отношения, военно‑исторические события и так далее). Кроме того, был использован анализ тональности предложений, где описанные данные появлялись. Характер отношений между объектами описывали благодаря тональности контекста предложений, упоминаемых обоих героев. Например, у двух персонажей по сюжету произведения были дружеские отношения, они склонны встречаться друг с другом в контексте вроде «они улыбались» или «обнимают друг друга», но никак не «они нападали друг на друга».
Для финального деления использовали сумму тональности всех взаимодействий. Это позволило охарактеризовать отношения персонажей и описать сообщества в зависимости от взаимодействия между людьми.
У исследователей получился вывод, что в хоть в произведениях представлено обилие рас, система персонажей и отношений, Толкин в произведениях выражает взаимоотношения не расовым разделением, а формирует их на основе сюжетно близких групп, например «Братство кольца».
Алгоритм, используемый учёными в анализе произведений, можно применить для извлечения именованных сущностей и взаимосвязей в других текстах. Например, проводить анализ нормативной документации и суммаризацию юридических текстов, чтобы переписывать сложные документы понятным человеку языком.
Старший научный сотрудник института искусственного интеллекта AIRI
«Практически все технологии можно отработать на базе не самых очевидных для бытовых представлений о серьёзности науки примерах. В первую очередь такой подход позволяет учёным получать удовольствие от исследований и обеспечивать более быстрый вход в изучение предмета для молодых специалистов. В прошлом году я уже руководил студенческой работой по автоматическому предсказанию сюжетных линий в 353 книгах о «Звёздных войнах». Несмотря на взятые за основу научной статьи книги о галактических путешествиях, описанные в ней методы применимы для анализа исторических документов и создания аналитики огромных массивов текстовых данных по любой теме».