Учёные описали алгоритм автоматического анализа текстов Толкина на основе ИИ05.04.2023 14:01

Старший научный сотрудник института искусственного интеллекта AIRI Илья Макаров и выпускница ВШЭ Анастасия Ященко описали алгоритм автоматического анализа литературных произведений на основе ИИ. Исследователи проанализировали системы персонажей книг Джона Рональда Руэла Толкина, рассказали информационной службе Хабра в пресс‑службе института AIRI.

Описанный метод определяет персонажей по репликам, описаниям и характеру взаимоотношений. По словам исследователей, технология применима для обучения диалоговых ботов, переводчиков и может сэкономить время при поиске информации в больших объёмах текста.

Для компьютерных систем распознавание имён людей, названий животных, организаций, топонимов представляется непростой задачей. Распознавание именованных объектов (Named Entity Recognition, NER) — это тип обработки естественного языка (Natural Language Processing, NLP), помогающий компьютерным системам идентифицировать и классифицировать объекты.

С помощью технологии NER и теории графов двое учёных обучили алгоритм автоматического анализа произведений на материале работ Толкина и опубликованных после смерти писателя записях под редакцией его сына. В список вошли «История Средиземья», «Властелин колец» и «Хоббит». Система обучилась распознавать именованные сущности, анализировать тональность текста и обнаруживать сообщества.

При использовании технологии токенизации исследователи извлекли из текста 156 482 предложения и в режиме «ручной настройки» получили список из 518 имён, 15 расовых лейблов и биографических фактов. Этот список приняли за «золотой стандарт». Далее текст привели к нижнему регистру и убрали случаи перифраза и сокращений, заменив их универсальным именем. Позже список уточнили в автоматическом режиме, использовав более 4 тысяч наиболее распространённых английских слов. Общее количество наименований для анализа составило 880 имён.

Далее для отображения связей между персонажами использовали пары имён, основанные на совместной встречаемости и обогащённые метаданными из индекса имён (семейные отношения, военно‑исторические события и так далее). Кроме того, был использован анализ тональности предложений, где описанные данные появлялись. Характер отношений между объектами описывали благодаря тональности контекста предложений, упоминаемых обоих героев. Например, у двух персонажей по сюжету произведения были дружеские отношения, они склонны встречаться друг с другом в контексте вроде «они улыбались» или «обнимают друг друга», но никак не «они нападали друг на друга».

Для финального деления использовали сумму тональности всех взаимодействий. Это позволило охарактеризовать отношения персонажей и описать сообщества в зависимости от взаимодействия между людьми.

У исследователей получился вывод, что в хоть в произведениях представлено обилие рас, система персонажей и отношений, Толкин в произведениях выражает взаимоотношения не расовым разделением, а формирует их на основе сюжетно близких групп, например «Братство кольца».

Алгоритм, используемый учёными в анализе произведений, можно применить для извлечения именованных сущностей и взаимосвязей в других текстах. Например, проводить анализ нормативной документации и суммаризацию юридических текстов, чтобы переписывать сложные документы понятным человеку языком.

Илья Макаров

Старший научный сотрудник института искусственного интеллекта AIRI

«Практически все технологии можно отработать на базе не самых очевидных для бытовых представлений о серьёзности науки примерах. В первую очередь такой подход позволяет учёным получать удовольствие от исследований и обеспечивать более быстрый вход в изучение предмета для молодых специалистов. В прошлом году я уже руководил студенческой работой по автоматическому предсказанию сюжетных линий в 353 книгах о «Звёздных войнах». Несмотря на взятые за основу научной статьи книги о галактических путешествиях, описанные в ней методы применимы для анализа исторических документов и создания аналитики огромных массивов текстовых данных по любой теме».