VoiceFabric: технология синтеза речи из облака01.12.2014 19:48

Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.Для чего Вам может понадобиться синтез речи? За историю существования сервиса мы получили от клиентов сотни разных вариантов того, как можно применять эту технологию. Иногда это задача адаптации сервисов и сайтов для людей с ограничениями по зрению, но многие используют возможности синтеза и просто для собственного удобства (например, для банального прослушивания книг в машине). Использование синтеза речи может быть крайне эффективно для решения бизнес-задач крупных компаний и стартапов.

Если классифицировать все запросы, то получится не такой уж и большой список:1. Озвучка книг и статей для частного использования. Можно делать аудиокниги и предлагать их другим.2. Озвучка видеороликов на YouTube и других видеоканалах. Обычно это обучающие видеоролики/лекции или зарубежные ролики/интервью, титры для которых есть на русском. Например.3. Создание аудиоподкастов на основе RSS-потоков и новостных лент.4. Озвучка контента сайта. Например (кнопка в шапке сайта).5. Озвучивание любой динамической информации в IVR-меню колл-центров (телефония). Можно и статичные сообщения тоже. Позвоните в КЦ РЖД, Мегафона, РоссельхозБанка и т.д. 6. Социальные сети. Например, у нас совместный проект с ВКонтакте.7. Мобильные приложения.8. Информационные сообщения в сетях ГГС: объявления на вокзалах и в транспорте, различные автоинформаторы, автообзвонщики и т.д. 9. Голоса для роботов и виртуальных консультантов, когда тексты все время меняются и озвучивать все варианты с помощью дикторов долго и не очень удобно.

Какой синтез речи у нас естьНа данный момент это 9 различных голосов: — 7 на русском языке (2 мужских и 5 женских); — 1 американский английский — Carol; — 1 голос казахского языка — Асель. (По нашим данным — это единственный в мире синтез казахского, готовый для промышленного внедрения, во всяком случае аналогов мы не нашли, если вы найдете — закидывайте в комментарии).

Все примеры голосов можно прослушать здесь.Каждый из них доступен в формате 8000 Гц (для телефонии) и 22050 Гц.

Наш русский синтез разрабатывался российскими учеными и разработчиками. В него заложены все правила и грамматики, особенности и сокращения, свойственные русской речи. А при создании зарубежных голосов мы привлекали носителей языка, чтобы учесть уже их языковые особенности и нюансы.

Чтобы понять, чем отличается наш русский синтез от зарубежных аналогов, проверьте его работу на озвучивании массивов не подготовленного информационного текста — естественного, разговорного, который изначально писался для того, чтобы его читали люди. Такие тексты обычно содержат множество сокращений и аббревиатур, которые сразу понятны человеку, но при их написании не предполагалось, что их когда-либо будет читать машина.Попробуйте озвучить, например, в Google TTS, фразу: «Университет имени проф. Бонч-Бруевича находится в г. Санкт-Петербург, пр. Большевиков, д. 22», или что-нибудь аналогичное, а потом сравните с нашим синтезом. На крупных внедрениях мы постоянно сталкиваемся с такими текстами. Яркий пример — база знаний в колл-центре, которая наполнялась когда-то для операторов. Переводить в данном случае всю базу знаний в удобоваримый для машины вид — это дорогое и долгое занятие.

Также у нас есть поддержка технологии Lipsync — это когда анимированные губы двигаются в такт того, что произносят. Можно делать виртуальных персонажей, которые правильно будут двигать губами, когда будут что-то говорить.

Ну и, конечно же, поддержка SSML разметки (язык разметки синтеза речи).

Ещё мы создаем уникальные голоса на заказ. У нас даже был опыт создания синтезированного голоса человека, который давно уже «не с нами». Обучение синтеза речи проходило по старым записям (даже пластинкам), поэтому звучание синтеза соответствующее. Но, тем не менее — это настоящий синтез и он может читать любой современный текст. Послушать, что получилось, можно здесь.

Пара слов о том, как встроить синтез в свой проектМы предлагаем два способа использования TTS VoiceFabric:

1) API-ключ, который встраивается в web-запрос.Обмен информацией API-сервиса VoiceFabric с приложением ведется по протоколу HTTPS. Текст, который не превышает 4096 символов, может передаваться на синтез запросом GET. Текст объемом до 10 Мб может передаваться на синтез запросом POST.Формат выходного звукового файла codec=pcm, bit=16, rate=8000, raw.Все запросы должны быть сформированы согласно HTTP-протоколу. Параметры строки запроса: UrlEncode, разделитель & и т.д. Все подробности в документации по интеграции.

2) Web-сервис, куда можно вставить любой текст (ctrl+C | ctrl+V), выбрать голос и получить озвученный текст в виде звукового файла.

Пробуйте, смотрите, пишите комментарии. Для нас очень важна обратная связь.

P.S. от себя лично.Я довольно давно занимаюсь синтезом речи и многие статьи с Хабра уже не читаю на сайте, а слушаю. У меня просто нет времени уже читать, а так можно слушать интересные мне статьи и одновременно заниматься другими делами или я вообще делаю из статьи МР3 и ухожу на улицу.