Как, читая новости, приносить пользу науке?

В предыдущий раз мы написали на Хабре о краудсорсинге лингвистических данных. Речь шла о морфологической разметке (part of speech tagging) современных текстов на русском языке. С тех пор было размечено около 2.2 млн. заданий, и около 3 тысяч человек приняли в этом участие. Мы с вами прошли чуть больше половины пути. Спасибо, что вы помогаете нам!

В OpenCorpora мы создаём открытые данные для обучения и тестирования математических моделей анализа текста на русском языке. Таким образом, мы помогаем российской компьютерной лингвистике догнать западную. Потом будем помогать обгонять ;)

Сегодня мы расскажем о разметке именованных сущностей. Это ещё один слой разметки текстов в Открытом корпусе. Мы будем выделять в тексте имена людей, названия компаний и географических объектов.

5ac00e762b5040339cb136bc061fa291.png


Зачем мы это делаем?

Морфологическую разметку мы начали и продолжаем по собственной инициативе. Работу над разметкой сущностей мы ведём совместно с оргкомитетом соревнования factRuEval-2016, которое пройдёт в рамках конференции по компьютерной лингвистике Диалог-21. На данном этапе сущности размечаются не во всём корпусе, а только в небольшом его подмножестве, которое станет обучающей и тестовой коллекциями для участников соревнования. В сумме это около 1000 новостных текстов объёмом по 3–4 абзаца. Как обычно, результат разметки будет опубликован на условиях лицензии Creative Commons. Обучающая часть коллекции будет публиковаться по мере её модерации, а разметка тестовой части — не ранее завершения соревнования и подведения его итогов.

Что такое разметка именованных сущностей?

Извлечение именованных сущностей из текста — одна из востребованных функций текстовой аналитики (см. об этом подробно, например, в блоге компании Textocat).

Было бы классно, если бы существовало несколько десятков конкурирующих между собой решений, позволяющих перечислить все упомянутые в тексте объекты, дать их нормализованные названия и соответствующие им идентификаторы объектов. И всё это для русского языка и с открытым исходным кодом. Принимая участие в организации соревнования factRuEval и в подготовке данных для него, мы делаем шаг в эту сторону и приглашаем вас присоединиться.

Если коротко, то выделение именованных сущностей состоит в том, чтобы найти в текстах имена собственные (ФИО персон, названия организаций и географических объектов), выделить их и пометить соответствующим тегом. Например, для персон нужно отдельно отметить фамилию, имя и отчество, после чего объединить выделенные отрезки в одно упоминание объекта с типом Person. Об этом мы написали подробную инструкцию и записали маленькое видео.

f2411f9954ac40629648be8c526fd934.png

Что будет дальше?

Разметка сущностей уже идёт. Следующими этапами разметки коллекции текстов для factRuEval будет идентификация упоминаний объектов между собой, связывание их с WikiData и разметка фактов. Первые два пункта подразумевают, что несколько отдельных упоминаний в тексте одного и того же объекта реального мира (например, Иванов Иван, Иванов и Иванов И.И.) будут объединены друг с другом в одну сущность. Для этой сущности будет указываться идентификатор из WikiData.

49461d40af0545688922c3151bab0d9d.png

Под фактами имеются в виду описанные в тексте отношения между уже выделенными на предыдущих этапах объектами: отношение Occupation (работать в компании) между персоной и организацией, отношение Ownership (владеть) между персоной и организацией и другие подобные отношения.

c119a6ff4b024abca95facadeee2f246.png

Как нам помочь?

1. примите участие в разметке.
Теперь у нас есть два направления работы: именованные сущности и морфология. Для выполнения заданий в обоих направлениях достаточно прочитать инструкции.

2. напишите об этой работе в социальных сетях и попросите ваших друзей помочь нам.
Не все читают GeekTimes, но очень многие готовы помогать по чуть-чуть.

© Geektimes