Морфология. Задачи и подходы к их решению
Содержание цикла статей про морфологию• Морфология и компьютерная лингвистика для самых маленьких • Роль морфологии в компьютерной лингвистике • Морфология. Задачи и подходы к их решению • Псевдолемматизация, композиты и прочие странные словечки В прошлой статье мы вплотную подошли к решению задачи лемматизации и выяснили, что, хотим мы этого или нет, но нам придется в том или ином виде хранить словарь со всеми словами описываемого языка. Для русского языка это несколько сотен тысяч слов. Может быть, это не экономично, зато дает нам очень много бонусов. Во-первых, мы можем проверить, есть ли слово в словаре. С помощью правил, основанных на регулярных выражениях, мы не выясним, есть слово «мымымымыться» в русском языке. Окончание вполне подчиняется правилам русского языка, повторение слогов — тоже не исключительный случай. Регулярное выражение это слово пропустит, но на самом деле никакого «мымымымыться» в русском языке не существует. Другая задача, которую решает словарь, хранимый в морфологии, — это исправление ошибок. Как только мы не находим в словаре какого-то слова, зато обнаруживаем там другое слово на коротком расстоянии Левенштейна до искомого, мы принимаем решение об исправлении. Читать дальше →