Mozilla развивает собственную систему машинного перевода
Компания Mozilla в рамках проекта Bergamot приступила к созданию системы машинного перевода, работающей на стороне браузера. Проект позволит интегрировать в Firefox самодостаточный движок перевода страниц, не обращающийся к внешним облачным сервисам и обрабатывающий данные исключительно на системе пользователя. Главной целью разработки является обеспечение конфиденциальности и защита данных пользователя от возможных утечек при переводе содержимого открываемых в браузере страниц.
Разработка Bergamot ведётся в берлинском офисе Mozilla при участии исследователей из нескольких университетов Виликобритании, Эстонии и Чехии. Разработку финансирует Евросоюз в рамках гранта, полученного по программе Horizon 2020. Размер гранта составляет три миллиона евро. Проект рассчитан на три года. В Mozilla открыта вакансия специалиста по системам машинного обучения для участия в разработке движка для перевода с одного языка на другой.
Из смежных разработок, имеющих отношение к проекту Bergamot, упомянуты:
- Развиваемый в Эдинбургском университете фреймворк машинного перевода Marian, построенный на базе рекуррентной нейронной сети. Фреймворк написан на языке C++, может задействовать GPU для ускорения обучения и перевода, и поставляется под лицензией MIT.
- Созданный в Пражском университете инструментарий Neural Monkey для обработки информации на естественном языке с использованием методов последовательного машинного обучения. Проект применяет фреймворк TensorFlow и может использоваться для быстрого создания прототипов систем машинного перевода и классификации информации на естественном языке. Код доступен под лицензией BSD.
- Подготовленный в Шеффилдском университете проект QuEst++, применяемый для оценки и прогнозирования качества систем машинного перевода.
- Развиваемые в Mozilla синтезатор речи (TTS) и движок распознавания речи (Deep Speech)
- Финансируемый Евросоюзом проект ParaCrawl, накапливающий базу синхронных переводов различных фраз на разных языках, которую можно использовать для тренировки систем машинного обучения. Основой проекта является бот bitextor, который индексирует многоязычные web-сайты и автоматически находит одинаковые тексты, представленные на нескольких языках. База примеров параллельных переводов формируется для 24 языков, в том числе для русского (БД для русского языка занимает 637MB в сжатом виде и включает более 12 млн примеров перевода).
Разработка Bergamot началась в январе этого года, но наработки проекта пока недоступны для публичного тестирования. Тем не менее, несколько дней назад разработчики опубликовали видео с демонстрацией начального прототипа.
Напомним, что в Firefox уже имеется встроенный механизм для перевода страниц, но он завязан на использовании внешних облачных сервисов (поддерживаются Google, Yandex и Bing) и не активирован по умолчанию (для включения в about: config следует изменить настройки «browser.translation»). Механизм перевода в том числе поддерживает автоматическое определение языка при открытии страницы на неизвестном языке и выводит специальный индикатор с предложением осуществить перевод страницы. Развиваемый в рамках проекта Bergamot прототип системы перевода использует этот же интерфейс для взаимодействия с пользователем, но вместо обращения к внешним сервисам запускается встроенный обработчик.
Источник: http://www.opennet.ru/opennews/art.shtml? num=51718
© OpenNet