[Перевод] Учим машину разбираться в языках
Хабр, привет! Мы уже рассказывали вам несколько раз про нашу интеллектуальную службу распознавания речи — LUIS. И в этих историях всегда была одна проблема: LUIS крутой, но не понимает русский язык. Сегодня всё изменится. Под катом вы узнаете о методе добавления поддержки дополнительных языков в LUIS с помощью службы Translation Cognitive API.
Цикл статей «Digital Transformation»
Технологические статьи:
1. Начало.
2. Лотерея в облаке.
3. Блокчейн в банке.
4. Учим машину разбираться в генах человека.
5. Учим машину разбираться в языках.
6. Loading…Серия интервью с Дмитрием Завалишиным на канале DZ Online:
1. Александр Ложечкин из Microsoft: Нужны ли разработчики в будущем?
Moed.ai — израильский стартап, позволяющий поставщикам услуг управлять своими рабочими календарями и вносить в них новые события с помощью единой облачной платформы, доступной с любого устройства.
Используя панель управления Moed.ai, пользователи могут планировать выполнение услуг, использование ресурсов и другие события. Под ресурсами здесь подразумеваются как объекты, например машины и переговорные комнаты, так и работники, к примеру водители-испытатели и торговые представители авто-дилера. Платформа Moed.ai позволяет планировать использование каждого из ресурсов и подстраивать под их доступность встречи с клиентами.
В настоящее время Moed.ai работает над созданием чат-ботов для каждого из своих заказчиков, чтобы клиенты этих компаний могли планировать выполнение услуг на удобном им языке привычным способом (в мессенджере Facebook, через Skype или Slack и т. д.).
Проблема
Moed.ai — израильская компания, поэтому для многих ее клиентов родной язык — иврит. Англоязычная версия чат-бота Moed.ai умеет выделять из сообщения пользователя намерение и сущности, и компания хочет создать программу на иврите с таким же функционалом. К сожалению, в платформе LUIS, которую компания планировала использовать для выделения намерений и сущностей, в настоящее время нет официальной поддержки иврита.
Решение
Целью совместной работы с Moed.ai было найти способ добавить поддержку иврита в LUIS с помощью когнитивной службы перевода (Translation Cognitive Service). В ходе работы мы сравнили два способа обеспечения поддержки иврита. Первый способ — загрузка текста, переведенного когнитивного сервиса, напрямую в существующую модель LUIS для английского языка — показал неудовлетворительные результаты, однако нам удалось создать более успешный метод.
Мы по-новому подошли к процессу обучения модели LUIS: вместо вычитанных английских фраз мы использовали в качестве примеров неотредактированный машинный перевод. Этот подход позволил нам преодолеть существенные различия между переводом, выполненным машиной, и правильной человеческой речью.
Чтобы понять, почему этот метод работает, рассмотрим следующую ситуацию.
Предположим, что пользователь обращается к программе четырьмя предложениями на иврите:
אני רוצה לקבוע פגישה
אני רוצה לקבוע נסיעת מבחן
אני רוצה לקבוע נסיעת מבחן למחר
אפשר לקבוע נסיעת מבחן למחר?
Правильный английский перевод этих предложений таков:
I want to schedule a meeting.
I want to schedule a test drive.
I want to schedule a test drive for tommorrow.
Can I schedule a test drive tomorrow?
Однако служба машинного перевода выдает следующий результат:
I want to schedule an appointment.
I want to schedule a test drive.
I want to make a test tomorrow.
Can set a test tomorrow?
Перевод первых двух фраз почти идентичен их смыслу, но обратите внимание, что между переводами третьего и четвертого предложений (»Я хочу поставить тест завтра»,»Я могу установить тест завтра? ») и их истинным значением (»Я хочу назначить тест-драйв на завтра»,»Могу я назначить тест-драйв на завтра? ») есть существенная разница.
Например, в обеих фразах система перевода заменила идею »тест-драйв» словом »тест», близким по форме, но очень далеким от смысла исходного текста. Модель LUIS, тренировавшаяся только на правильных предложениях, таких как «Я хочу назначить тест-драйв на завтра», едва ли сможет угадать смысл, скрытый за этой заменой, так как эта ошибка характерна именно для перевода предложений с иврита на английский. Различия в грамматике и словоупотреблении между двумя языками ведут к появлению в переводах одних и тех же неточностей, характерных именно для этой пары языков.
Если же мы будем изначально обучать модель на предложениях, переведенных с иврита, служба быстро научится выявлять несоответствия между некорректным переводом и исходным значением. Со временем модель запомнит, какие именно ошибки в переводе с иврита служба перевода допускает в каждом конкретном контексте, и будет чаще правильно реагировать на запросы.
Руководство по использованию
В этом разделе описан процесс обучения и использования нашего модуля узла для добавления поддержки дополнительных языков для программ-роботов. Предполагается, что пользователь уже создал приложение LUIS и сгенерировал ключ для когнитивной системы перевода (Translation Cognitive Service).
- Составьте список команд на необходимом вам языке (в нашем случае на иврите). Например:
אני רוצה לקבוע פגישה // I want to schedule an appointment אני רוצה לקבוע נסיעת מבחן // I want to schedule a test drive אני רוצה לקבוע נסיעת מבחן למחר // I want to schedule a test drive for tomorrow אפשר לקבוע נסיעת מבחן למחר? // Can I schedule a test drive tomorrow?
- Выполните скрипт «Массовый перевод и импорт в LUIS».
- Выделите переводы, намерения и сущности с помощью портала LUIS.
- Используйте на портале LUIS программу автоматического обучения и тестирования, чтобы опробовать и еще раз потренировать свою модель, пока она не научится сопоставлять переводы с нового языка с их значениями.
- Примените npm-модуль LUIS, чтобы использовать обученную модель LUIS и интегрировать ее в свое приложение.
Код
Исходный код и заметки по использованию описанного метода вы можете найти на GitHub.
Возможности для использования
Описанный в данной статье метод можно использовать для обнаружения намерений и сущностей в тексте на любом естественном языке, поддерживаемом когнитивной службой перевода. Он также применим при локализации многих продуктов вида «общение как платформа», чтобы разговор с программой-роботом был более естественным.
P.S. Благодарим Костю Кичинского (Quantum Quintum) за иллюстрацию к этой статье.