«Яндекс Браузер» научился переводить видео с китайского языка

Нейросеть «Яндекса» научилась переводить видео с китайского языка. Процесс обучения оказался непростым и потребовал учесть множество особенностей сложного языка.

Яндекс

Прежде всего, разработчикам «Яндекса» потребовалось с нуля собрать собственный датасет: с помощью специального алгоритма они обработали 1,5 миллиона видео и выбрали 100 тысяч роликов с качественными субтитрами на мандаринском (севернокитайском языке), которым владеет более миллиарда человек. А чтобы нейросеть научилась их понимать, весь необходимый для работы с китайским словарь разработчики закодировали в виде 10 000 токенов. Для сравнения, пять европейских языков уместилась в библиотеку на 5000 токенов.

Наконец, всего за три месяца нейросеть научилась различать четыре тона, определяющих смыл сказанного. Это одна из ключевых сложностей китайского языка, когда один и тот же слог, произнесённый с повышением или понижением голоса, может означать совершенно разные вещи. А для разграничения омофонов учитывается контекст.

Технологий уже доступна на YouTube, а чуть позже появится поддержка популярной китайской видеоплатформы Bilibili.

Источник:  4pda.to


©  4PDA