Yandex SpeechKit теперь умеет синтезировать и распознавать речь на узбекском языке

e372a289a526587fc062c210448bf976

Yandex Cloud разработала нейросети, способные распознавать речь и воспроизводить её на узбекском языке. Компании в России и Узбекистане уже могут использовать новый язык в сервисе Yandex SpeechKit для создания голосовых помощников, автоматизации кол-центров и речевой аналитики, рассказали Хабру в пресс-службе облачной платформы.

Модели синтеза речи обучались на предзаписи голоса реального диктора. Специалисты Yandex Cloud собрали датасет с тысячами часов аудио и их расшифровками, в том числе короткие и длинные фразы, а также имена, адреса, даты и числа. Нейросети для синтеза и распознавания узбекского работают с латинским алфавитом, который используется в Узбекистане уже больше 20 лет. При этом алгоритмам пришлось выучить и некоторые звуковые особенности букв. Например, буква «X» обозначает в алфавите твёрдый [х], а в иностранных словах может произноситься как [кс].

Нейросети умеют синтезировать речь из текста и из его фонемной записи, в которой указаны все особенности звуков в словах. Это позволит клиентам корректировать в синтезе произношение отдельных слов: сложных фамилий, названий товаров, заимствованных выражений. Для этого им нужно будет указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса.

Модели доступны на сайте и настраиваются стандартными средствами в API. Синтез и распознавание узбекского языка с помощью Yandex SpeechKit уже начал использовать ряд компаний, в том числе, например, Kolesa Group. Также технологию уже тестируют и интегрируют в свои решения компании-партнёры, в том числе TargetAI, JustAI, Unistar Digital и Tomoru.

© Habrahabr.ru