Искусственный интеллект в области юриспруденции
Введение
Тема искусственного интеллекта сегодня — одна из самых обсуждаемых. Перспектива «обеспечить монополию в сфере искусственного интеллекта и стать властелином мира» заставила всех соревноваться в данной области. IT-гиганты, финансовые компании, бизнес-аналитики, университеты и научное сообщество предлагают собственное видение инструментов и методологии решения основных задач при их создании. Однако результаты удручают, особенно в сфере LegalTech.
Что такое настоящий LegalTech, а что скрывается под громкими рекламными слоганами? Почему никому из IT-разработчиков не удалось создать действительно прорывной и функциональный продукт, близкий к цифровому юристу? Какой подход позволил нам решить данные задачи и существенно приблизиться к созданию настоящего юридического искусственного интеллекта?
Какова роль практикующих юристов в процессе разработки инструментов автоматизации?
В данной статье мы хотим поделиться с Вами результатами многолетних исследований в области искусственного интеллекта и предоставить ответы на эти вопросы.
Disclaimer: мы не критикуем существующие инструменты, а говорим о том, что для решения обозначенного круга задач требуется качественно новый подход к разработке.
1. LegalTech в России
Наша компания более 15 лет успешно работает на рынке консалтинговых и юридических услуг. Обладая значительным юридическим опытом решения самых нестандартных кейсов и сложных проектов в России и за рубежом, мы посвятили не один год научному исследованию и практическим разработкам в области цифровых технологий и перспектив их применения в профессии. Несколько лет назад мы задались вопросом: почему юридический рынок обделен инструментами автоматизации? Анализ предлагаемых продуктов позволил прийти к следующим результатам.
Мы, как профессиональные юристы, активно следим за развитием сферы LegalTech и за решениями, которые предлагаются на рынке в качестве прорывных продуктов, способных, по заявлениям создателей, изменить традиционное представление о работе юриста. Но на самом деле в качестве LegalTech на отечественном рынке распространяются решения, которые очень далеки от содержательной автоматизации юридической функции и позволяют решать локальные задачи, не связанные с творческой и экспертной юриспруденцией. В то время, как инженеры активно применяют в повседневной работе решения, выполняющие сложные расчеты и рутинные операции, а сотрудники финансового сектора используют цифровые платформы для построения финансовых моделей и оценки рисков, все, что есть у юристов — чуть более продвинутые поисковые сервисы и шаблоны документов.
Весь доступный инструментарий для юриста сегодня это:
- конструкторы документов, работающие на основе типовых и унифицированных шаблонов, в которых любое отклонение от формы требует ручной правки;
- сервисы проверки контрагента, осуществляющие агрегацию общедоступной информации из публичных реестров (ЕГРЮЛ/ЕГРИП, Федресурс, КАД и др.), которые редко позволяют найти ценную информацию;
- системы подбора судебной практики и справочно-правовые системы, осуществляющие базовый поиск по ключевым словам, фразам, тегам в открытой базе судебных решений и НПА, которые предоставляют все документы, содержащие искомое слово без учета контекста и др.;
- системы управления проектами, задачами и документами (различные BPM/ERP/ECM-системы, заточенные на автоматизацию биллинга, учет времени и контроль за ресурсами).
Данные инструменты ни на шаг не приближают нас к автоматизации творческой и экспертной юриспруденции. Они, безусловно, облегчают работу юриста, но только в вопросах поиска информации, а не в ее интеллектуальной обработке с точки зрения юридической логики. Практикующие юристы высокой квалификации согласятся с нами, что если бы можно было предлагать клиентам шаблонные договоры, в которые встроены актуальные даты, суммы и наименования объектов, то профессии юриста уже бы не было. Ценность юриста заключается в его способности предвидеть ситуацию на несколько шагов вперед и предлагать нестандартные решения в пользу клиента с минимальными рисками и издержками с точки зрения права.
Мы однозначно можем сказать, что при существующем уровне развития технологий юридический рынок в России (и, скорее всего, в мире) не имеет полноценных решений, способных заменить юриста даже начальной квалификации и автоматизировать хоть в сколько-нибудь значимой части юридическую функцию.
2. Особенности предметной области
Прежде чем перейти к анализу технологической стороны вопроса необходимо понять особенности предметной области. Работа любого юриста-эксперта связана с документами. Данные и документы разнородны и имеют собственные отличительные особенности. Задача профессионального юриста при работе с документами заключается в том числе в правовой оценке их содержания, квалификации отношений между субъектами, выявлении правовых и финансовых рисков для представляемой стороны и выработке предложений по их минимизации или в регламентации существующих отношений между хозяйствующими субъектами.
Например, к юристу обратился клиент, который столкнулся с недобросовестным поведением контрагента и требует защитить его интересы. Задачами юриста являются:
- запросить и (или) собрать необходимые документы (договоры, акты, письма и все иные материалы, имеющие отношение к делу) и установить значимые юридические факты;
- оценить их под призмой действующего законодательства и практики его применения (понять правовую природу отношений и определить круг правовых норм, подлежащих применению);
- предложить варианты решения проблемы и собственные рекомендации, после — реализовать выбранный вариант.
Это только один из примеров, с которыми сталкивается юрист ежедневно. При последовательном решении каждой отдельно взятой задачи проявляется профессионализм и экспертные навыки, которые формируются по мере работы юриста и накопления опыта. Одна из значимых компетенций юриста — это умение видеть в письменных документах все юридические факты, выделять наиболее значимые и соотносить их с нормами права для поиска возможных решений. Именно поэтому одной из ключевых и первостепенных задач, которую необходимо решить для создания действительно функционирующих инструментов автоматизации юридической работы, является обучение машины смысловому понимаю текста на уровне юриста-профессионала. Речь идет о полноценном семантическом анализе юридических текстов.
При обращении к вопросам автоматизации юридической функции и создания полноценного юридического искусственного интеллекта мы считаем, что без применения глубоких лингвистических технологий эти задачи решить не получится. Это, прежде всего, связано с необходимостью научить программные инструменты понимать не только отдельные сущности (категории) в тексте, но и анализировать текст, выделять все возможные смыслы и проводить логические взаимосвязи в его содержании. В качестве подтверждения данного тезиса приведем следующие аргументы.
В первую очередь, при анализе документа юрист оценивает его содержание с точки зрения смыслов, которые в нем содержатся. Например, в тексте большинства уставов обществ с ограниченной ответственностью имеется следующий пункт, дублирующий п. 3 ст. 21 Федерального закона № 14-ФЗ от 08.02.1998 г.:»Доля участника Общества может быть отчуждена до полной ее оплаты только в той части, в которой она уже оплачена». Применяя экспертные юридические знания мы можем извлечь следующие смысловые блоки из данного предложения:
- У участника Общества есть доля.
- Доля участника общества может быть отчуждена.
- Доля участника общества может разделяться на части.
- Часть доли может быть отчуждена.
- Участник Общества вправе осуществить отчуждение доли или части доли участника Общества.
- Доля участника Общества оплачивается участником.
- Доля участника Общества может быть оплачена не полностью.
- Часть доли участника Общества может быть оплачена.
- Часть доли участника Общества может быть не оплачена.
- Отчуждение неоплаченной части доли участника Общества запрещено.
- Отчуждение оплаченной части доли участника Общества разрешено и др.
Подобный уровень детализации смыслового содержания документов с помощью машинных инструментов невозможно добиться без воссоздания юридической «картины мира» путем разработки экспертных семантических концептов, созданных в тесном взаимодействии с погруженными в предметную область (как в теорию, так и в практику) специалистами.
Кроме того, с точки зрения внутренней структуры, документы, используемые в юриспруденции, могут быть классифицированы следующим образом:
- высокоструктурированные документы, имеющие установленную законом строгую форму и упорядоченное содержание (выписки и справки из публичных реестров, документы на бланках строгой отчетности, управленческая документация по ОКУД и др.);
- слабоструктурированные документы, имеющие, как правило, шаблонную форму, но содержащие некоторые творческие элементы (банковские выписки и др.);
- неструктурированные документы, не имеющие однородной формы и содержания и характеризующиеся высоким уровнем уникальности содержания (договоры, корпоративные акты, процессуальные документы, юридические заключения, меморандумы и др.).
И если для машинной обработки высокоструктурированных документов сложные лингвистические решения не требуются, то для слабоструктурированных и неструктурированных документов, которых в области права большинство, технологии NLP (Natural Language Processing) являются единственным инструментом, способным справиться с данной задачей.
Итак, определив приоритетные задачи для создания юридического искусственного интеллекта, мы приступили к анализу рынка и тестированию существующих инструментов NLP. Результаты исследования представлены в Главе 2 настоящей статьи.
2.1. Чат-боты и цифровые ассистенты
Пару слов также нужно сказать про ставших недавно популярными цифровых помощников, чат-ботов, ассистентов и т. п. Безусловно, с приходом Alexa, Siri и Алисы множество аспектов бизнеса и нашей повседневной жизни кардинально поменялись:
- подавляющее большинство задач планирования («поставь встречу в календарь») и поиска информации («найди год выпуска фильма») решается без участия человека;
- наверное, самый большой эффект на себе пока ощутила сфера поддержки клиентов, где личное общение со специалистом все чаще становится доступным только для премиального сектора.
В свете такого взрывного роста возникает большой соблазн создать робота-юриста (как end-to-end решение):
- записать ответы юриста на ТОП-100/1000 самых частых вопросов, составить подробный FAQ, описать все возможные жизненные ситуации и т. п.;
- «загрузить» в нейронную сеть всю имеющуюся судебную практику, судебные решения;
- как результат — получить робота, который сможет (например, при помощи deep learning) соотнести запрос пользователя с ответом юриста (судебным прецедентом, решением), который был дан ранее в похожей ситуации.
Такая идея далеко не нова, но все попытки ее реализации за всю мировую историю права неизменно заканчивались неудачей. Причина в следующем: практикующий юрист почти каждый день сталкивается с новой уникальной задачей, которая требует творческого подхода. В связи с этим технологии чат-ботов и ассистентов мы не расцениваем как элемент LegalTech/Legal AI, поскольку они имеют сугубо опосредованное отношение к автоматизации юридической функции.
Наше субъективное мнение: применение технологий цифровых ассистентов, чат-ботов в сферах экспертной деятельности — крайне рисковое мероприятие:
- ущерб от некорректных действий традиционного чат-бота, например, в сфере поддержки клиентов является номинальным: в случае некорректной работы можно получить недовольного клиента, плохой отзыв и т. п.;
- если ошибается чат-бот в сфере, где необходимы экспертные знания (например, юриспруденция, медицина, строительство) — ущерб может быть непредсказуемым и фатальным.
При этом не составляет особого труда предугадать логику законодательного регулирования. Если цифровые ассистенты и чат-боты будут допущены до экспертной сферы, то, скорее всего, на уровне закона будет установлено, что за все рекомендации и действия ассистентов и чат-ботов их разработчики несут полную ответственность.
3. Анализ существующих подходов и инструментов
Исследованиям вопросов в области лингвистики и технологий NLP мы посвятили большое количество времени в том числе в рамках рабочих встреч и обсуждений подходов с представителями научного сообщества. Нельзя не оценить их вклад в развитие инструментов обработки текста, которые в настоящее время показывают хорошие практические результаты. Мы благодарны представителям научного сообщества за бесценный опыт, которым они поделились с нами и внимание, проявленное к нашим разработкам. Прежде всего мы имеем в виду следующие коллективы:
- ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики) и, в частности, Руководителя международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии», доцента факультета программной инженерии и компьютерной техники Дмитрия Муромцева, а также его коллег — Любовь Ковригину и Ивана Шилина: под руководством Д. Муромцева был адаптирован для русского языка синтаксический парсер, созданный в Стэндфордском университете для применения на англоязычных текстах (подробнее о тестировании парсера Stanford — в разделе 3.2.3.3.);
- Лабораторию компьютерной лингвистики ИППИ РАН им. А.А. Харкевича (Институт проблем передачи информации Российской академии наук) и, в частности, научных сотрудников Леонида Иомдина и Ивана Рыгаева, под руководством которых был создан синтаксический парсер ЭТАП (и версия ЭТАП-4), применяемый для русского языка (подробнее о тестировании ЭТАП — в разделе 3.2.3.2.).
В России направление NLP развивается во многом благодаря энтузиазму и многолетней работе ученых, осуществляющих разработки в области процессинга русскоязычного текста в условиях ограниченного бюджета, а также отсутствия частных и государственных инвестиций, способных финансировать масштабные исследовательские проекты. Несмотря на эти обстоятельства, данными научными коллективами были достигнуты огромные практические результаты в области процессинга текста на русском языке, которые заслуживают уважения.
По нашему мнению, обозначенная проблема отсутствия финансовой поддержки и инвестиций в научные разработки технологий NLP в России является одним из факторов, сдерживающих развитие данной области. Государственная поддержка таких проектов позволила бы совершить существенный прорыв в области семантики и синтаксического парсинга, а также достигнуть огромных результатов.
Далее мы предлагаем рассмотреть существующие подходы и инструменты в области обработки текста на русском языке с практической стороны.
3.1. Существующие подходы и коммерческие продукты
В области NLP на отечественном рынке присутствует ряд коммерческих решений, которые предлагают универсальный функционал по процессингу русскоязычных текстов. Однако среди данных продуктов отсутствуют профильные решения, ориентированные на юристов и способные удовлетворить потребности предметной области в полном объеме.
Совокупно данные продукты могут быть разделены на две группы. Первая группа представляет собой решения, функционал которых обеспечивается за счет многочисленного набора правил, которые формулируются лингвистами и специалистами из предметной области. Наиболее известными системами являются решения от ABBYY, Pullenti, Megaputer и ряда других др. Разработчиками данных решений предлагается проведение лингвистического анализа неструктурированных текстов посредством выделения именованных сущностей (Named Entity Recognition), применения правил морфологии, синтаксиса, семантики и иных процедур обработки (как правило, такие правила описываются в проприетарном закрытом формате). Стоит оговориться, что в таких системах могут применяться элементы машинного обучения, но они играют второстепенную роль.
Принципиальный недостаток таких решений кроется в подходе — реализация функционала путем создания отдельных правил приводит к необходимости вырабатывать десятки/сотни тысяч правил для отдельно взятой области, что неизбежно приводит к возникновению противоречий. Классический пример:
- для фразы:»студент проходил обучение в МГУ имени М.В. Ломоносова»;
- правила поиска организаций дадут результат — »МГУ имени М.В. Ломоносова»;
- правила поиска имен (ФИО) дадут результат — »М.В. Ломоносов»;
- для разрешения данной (и каждой похожей) ситуации нужно вручную создавать специальное правило-исключение.
Кроме того, одно изменение или ошибка может потребовать пересмотра значительной части правил.
Вторая группа — решения, основанные на применении нейронных сетей, обученных на корпусе текстов. Наиболее яркими представителями являются DeepPavlov, FRED и др. В отличие от первой группы продуктов использование машинного обучения позволяет уйти от необходимости разработки правил анализа текста и их правки при изменениях в предметной области, однако для подготовки обучающего датасета требуется профессиональная разметка сотен тысяч образцов документов каждой используемой категории. В настоящее время существующие модели предобучены на корпусе текстов из общедоступных источников: художественной литературы, текстов в сети (wikipedia) и др., что не позволяет полноценно использовать их при обработке юридических текстов, обладающих собственной спецификой. Обучение же на корпусе юридических документов осложнено отсутствием в открытом доступе достаточного количества уникальных образцов в связи с конфиденциальным характером содержания реальных правовых документов.
Именно поэтому в настоящее время нет коммерческих проектов, созданных на основе ML/DL, где в качестве обучающего датасета присутствует достаточное количество юридических текстов. Тем не менее многие крупные компании, обладающие собственной обширной базой документов, предпринимают попытки создания инструментов для внутреннего пользования.
3.2. Тестирование отдельных инструментов NLP
Общеизвестен факт, что русский язык во многих аспектах — один из самых сложных языков, особенно когда дело касается профессиональной лексики. Юридические тексты объединяют в себе не только специфическую терминологию, но и формализм, сложную синтаксическую структуру, характеризующуюся наличием множества оборотов (сложносочиненных и сложноподчиненных предложений, причастных и деепричастных оборотов и др.).
Исследуя и подбирая инструменты для решения задачи процессинга юридических текстов на русском языке, мы столкнулись с рядом проблем. Для понимания сложности задачи приведем два примера предложений:
- Стоимость товара составляет десять тысяч рублей.
- Согласно пункту 4 Правил безвозмездные целевые взносы предоставляются субъектом оптового рынка на цели выделения из соответствующих бюджетов субъектов Российской Федерации субсидий на возмещение гарантирующим поставщикам, реализующим электрическую энергию (мощность) покупателям на розничных рынках, расположенных в территориально изолированных технологических системах и (или) на территориях, технологически не связанных с Единой энергетической системой России и технологически изолированными территориальными электроэнергетическими системами, а также гарантирующим поставщикам (энергосбытовым (энергоснабжающим) организациям), реализующим электрическую энергию (мощность) покупателям на розничных рынках, расположенных на территориях неценовых зон оптового рынка, недополученных доходов в связи с доведением цен (тарифов) на электрическую энергию (мощность) до базовых уровней цен (тарифов) на электрическую энергию (мощность) в соответствующем периоде регулирования в соответствующем субъекте Российской Федерации. (Решение Верховного Суда РФ от 22 марта 2019 г. № АКПИ18–1182)
Очевидно, что предложения по типу второго примера чаще используются в юридических текстах, чем по типу первого, что и порождает проблемы в реализации процессинга.
Кроме того, для русского языка неприменимы инструменты, созданные для англоязычных текстов. Причина тому кроется в критических различиях в данных языках. Тогда как английский язык является аналитическим, русский язык обладает главным образом свойствами синтетического языка. Из этого следует ряд принципиальных отличий между ними. Английский язык имеет фиксированный порядок слов, обеспечивающий структурную связность текста, тогда как в русском языке структура формируется при помощи множества грамматических морфем (приставок, суффиксов, флексий).
Для понимания приведем следующий пример:»В 2019 году совершена притворная сделка, в соответствии с которой имущество было отчуждено в пользу аффилированного лица мужа члена Совета директоров, фиктивный развод с которым состоялся годом ранее». В данном предложении придаточная часть может относится к нескольким сущностям: «аффилированному лицу», «мужу», «члену Совета». В английском языке этот вопрос разрешился бы за счёт близости главной и зависимой частей.
Английскому языку присуще также обязательное наличие в предложении подлежащего и сказуемого, тогда как русский язык характеризуется возможностью пропуска не только одного из главных членов предложения, но и зачастую слов, смысл которых предполагается, применяя такие фигуры речи, как эллипсис (пропуск слов с возможностью контекстуального восстановления). Например: «На собрании председательствующий представил аудиторское заключение, ревизор — решение суда», в котором повторяющийся глагол «представил» опускается во второй части и реализуется с помощью пунктуации.
Все это свидетельствует о сложности и уникальности русского языка, особенно с учетом особенностей профессиональной терминологии юристов. Текущий уровень развития NLP, к сожалению, не позволяет нам сформировать лингвистические универсалии, позволяющие совершать сложные логические операции (анализ, синтез, генерация и вывод) над текстами всех областей человеческих знаний. Более того в настоящее время нет готовых программных решений по процессингу русского языка даже для крайне узких предметных областей по отдельности, не говоря даже о юридических текстах, которые сочетают в себе как профессиональную лексику, так и общеупотребительные конструкции и терминологию из других сфер.
Технологии NLP строятся на трёх основных направлениях лингвистики: морфологии, синтаксисе и семантике. Поиск решений в области морфологического анализа для русского языка уже не вызывает острых вопросов: есть несколько готовых качественных инструментов в области морфологии, а также открытых библиотек (например, natasha/yargy). С синтаксисом дела обстоят несколько иначе. Мы исследовали множество парсеров, созданных для русского языка и адаптированных к нему. У всех есть свои преимущества и недостатки. Решение задачи семантического анализа юридических текстов также осложнено рядом проблем. Подробнее об этом расскажем ниже.
3.2.1. Семантический анализ
3.2.1.1. DeepPavlov
Исследования и разработки с применением семантики направлены на решение многих задач NLP: от глубинного машинного перевода до диалоговых систем и программных решений по генерации готовых текстов. Изучая научные наработки и готовые open-source модели, мы пришли к выводу, что интенсивнее всего семантическая область NLP на русском языке развивается в сфере систем с естественно-языковым интерфейсом, способным принимать вопросы и отвечать на них на естественном языке (Question-answering system, QA-системы). Однако и в сфере QA-систем отсутствуют профильные решения для юристов.
Одна из наиболее эффективных существующих моделей — DeepPavlov. Данная модель основана на Google BERT (и ряде других моделей) и является открытой программной библиотекой разговорного AI для создания виртуальных диалоговых ассистентов и универсального анализа текста.
Для первого теста мы выбрали предложение осложненное сочинительной, подчинительной связями, перечислениями, уточнениями, аббревиатурами, сокращениями, числами, производными союзами и предлогами:»В соответствии со ст. 46 Конституции РФ и гл. 24 АПК РФ граждане и организации вправе обратиться в суд за защитой своих прав и свобод с заявлением об оспаривании решений, действий органов государственной власти, органов местного самоуправления, должностных лиц, государственных или муниципальных служащих, в результате которых, по мнению указанных лиц, были нарушены их права и свободы или созданы препятствия к осуществлению ими прав и свобод либо на них незаконно возложена какая-либо обязанность или они незаконно привлечены к ответственности».
Тест проводился путем поочередных вопросов системе:
- «Чьи действия можно оспорить?»;
- «Чьи решения можно оспорить?»;
- «Какие действия можно оспорить?»;
- «Какие решения можно оспорить?».
Наглядно видно, что вопрос »Чьи действия/решения можно оспорить? » не вызывает трудностей у системы: придаточная часть «органов государственной власти…» относится к однородным членам предложения одинаково, вне зависимости от последовательности этих слов в предложении. Очевидно, вопрос предполагает синтаксическую связь «действий», «решений» со словом/словами в форме родительного (притяжательного) падежа и, вероятно, множественного числа.
Однако, перефразируя тот же вопрос, мы получаем другой результат. Когда вопрос формулируется более абстрактно, последовательность слов в предложении начинает иметь гораздо большее значение, чем его синтаксическая структура, что не соответствует смыслу предложения.
В рамках второго теста мы попытались определить субъектный состав и объект договора из более простого предложения:»Между ООО «Кротвест и ООО «МедКо» заключен договор аренды в отношение нежилого помещения».
Как видно из результатов, система DeepPavlov успешно определила объект и субъектный состав договора из простого предложения. Усложнение задачи и изменение последовательности слов в предложении на входе снова демонстрирует жёсткую привязку семантического анализа к синтаксису и последовательности слов.
Субъект определяется корректно только том случае, когда стороны записаны подряд и напрямую связаны синтаксически (в данном случае предлогом «между» и соединительным союзом «и»). Стоит отметить, что с точки зрения юридической логики оба предложения содержат абсолютно идентичные смыслы: субъектами являются обе компании. Однако в зависимости от формулировки вопроса ответ определяется неустойчиво.
Для третьего теста мы проверили возможность вычленять факты, используя конверсивы (слова, выражающие отношения к одну и тому же событию с разных углов зрения). За основу было взято предложение с именованными сущностями (организация и лицо) и глаголом «продать». Модель хорошо идентифицировала вопросы, лексически дублирующие текст предложения.
Когда же в вопросе применялся конверсив «купить», ответ снова привязывался к синтаксической зависимости вопроса и предложения, а не к семантическому концепту в целом.
Аналогичные операции были проделаны на более простом предложении:»Зоя продала Лене коляску».
В данном тесте модель успешно идентифицировала как объект, так и субъектный состав отношений.
Помимо приведенных примеров мы провели множество других тестов QA-модели DeepPavlov, в том числе на предложениях, не связанных с юриспруденцией. В результате можно сказать, что модель показывает хорошие результаты при постановке вопросов, синтаксически и лексически близких к предложению на входе и, потенциально, может быть использована в качестве поисковой системы для документов большого объёма. Однако для качественного контекстуального анализа и, как следствие, выделения точных данных и значимых смыслов из текста с помощью данной модели видится невозможным. А ведь именно эти задачи представляют особую важность для инструментов, применяемых в юриспруденции.
3.2.1.2. FRED machine reader for the Semantic Web
Ещё одним инструментом семантической обработки текста, привлёкшим наше внимание, является семантический парсер FRED. Архитектура FRED построена на применении нейронных сетей, принципов фреймовой семантики и онтологического подхода, в результате чего анализируемый текст систематизируется путем выстраивания семантических связей между элементами и множеством существующих онтологий.
Система успешно выделяет семантические группы и предоставляет ссылки на используемые онтологии, что позволяет продолжить процессинг текста через онтологические отношения. Предлагаем более детально рассмотреть достоинства и недостатки данного подхода на примерах.
В качестве исходных данных для первого теста мы выбрали следующие простые предложения:
»ООО «Лесник» продало Друнову В.С. партию деревянных слэбов».
»Зоя продала Лене коляску».
Оба примера связаны с отношениями купли-продажи объекта. С точки зрения гражданского права РФ договор купли-продажи включает в себя сторон (продавец и покупатель), объект (объект гражданского оборота, отчуждаемый продавцом в собственность покупателя) и предмет (действия, совершаемые сторонами для достижения желаемого правового результата, а именно — продавец обязуется передать имущество в собственность покупателя, а покупатель — принять объект и оплатить его стоимость).
Рассмотрим, как факты, связанные с продажей, структурируются с помощью FRED:
- выявлено событие «Продажа» (в графе оно не предполагает обратного события — «Покупка», однако такая возможность должна подразумеваться отношениями в онтологиях);
- событие имеет Агента (продавца) и Реципиента (покупателя);
- событие имеет «Тему» продажи (продукт) с его атрибутами, иными словами — материальный объект отношений.
Стоит отметить, что имена физических лиц и наименований организаций во FRED определяются так же неустойчиво (сравните связи агента и реципиента в первом и втором предложении): если во втором предложении «Зоя» и «Лена» соотнеслись с соответствующими именами в онтологии (иначе говоря, были распознаны в качестве имён), то в первом предложении Агент «ООО Лесник» и Реципиент «Друнов В.С.» не соотносятся с классами онтологии вовсе, что говорит о неидентификации наименований организаций в качестве таковых.
Далее рассмотрим пример с синтаксической близостью сторон в предложениях о заключении договора на следующих примерах:
»ЗАО «СадыОгороды» заключило договор аренды нежилого помещения с И.С. Ивановым».
»ЗАО «СадыОгороды» и И.С. Иванов заключили договор аренды нежилого помещения».
В первом примере на графе событие имеет только одну сторону (в качестве Агента идентифицировано «ЗАО СадыОгороды»). Второй же фактический Агент данного предложения «И.С. Иванов» ошибочно ассоциирован с событием через «Продукт» (договор) связью «с» — «Договор «с» И.С. Ивановым». С точки зрения семантики и юридической логики эта связь уместнее в случае «Договор «c» правками (приложением; доп. соглашением и т.д.)». Во втором же примере на графе верно выделяются обе стороны договора («ЗАО СадыОгороды» «И.С. Иванов» имеют роль Агента).
Данные тесты наглядно демонстрируют наличие общей проблемы у FRED и DeepPavlov при семантическом анализе, связанной с сильной привязкой к синтаксису и последовательности слов в предложениях. FRED в сравнении с DeepPavlov, на первый взгляд, видится инструментом, позволяющим выделять факты и семантические связи между ними более конкретно. Однако, при детальном рассмотрении у данного подхода обнаруживаются те же проблемы, что и у DeepPavlov.
3.2.2. Named Entity Recognition (NER)
Еще один инструмент,