Nvidia представила нейромодель генерации выразительной речи01.09.2021 13:31

Nvidia на конференции Interspeech показала модель диалогового ИИ для выразительного синтеза речи, чтобы генерировать голоса для персонажей, виртуальных помощников и персонализированных аватаров. Технология позволяет имитировать ритм, интонации и тембры голосов людей.

Творческая группа Nvidia использует эту технологию для создания выразительного повествования в серии видеороликов о способностях ИИ. Синтез экспрессивной речи стал одной из областей исследований компании в сфере разговорного ИИ — она также включает обработку естественного языка и распознавание речи, улучшение звука и многое другое.

Некоторые из этих разработок имеют открытый исходный код и были созданы с помощью инструментария Nvidia NeMo, доступного в NGC.

За последний год исследовательская группа компании по преобразованию текста в речь разработала управляемую модель синтеза речи RAD-TTS, которая использовались в демонстрации на конкурсе SIGGRAPH Real-Time Live. RAD-TTS может преобразовать любую текстовую подсказку в голос и воссоздать оригинальный голос, когда слова одного спикера пересказывает другой. Интерфейс обеспечивает точное управление на уровне кадра высотой, длительностью и энергией синтезированного голоса.

Видеопродюсер Nvidia с помощью нейромодели смог записать свою речь, а затем преобразовать ее в женский голос и настроить синтезированную речь, чтобы выделить определенные слова, установить темп повествования и так далее.

Возможности модели ИИ выходят за рамки простого озвучивания: преобразование текста в речь можно использовать, чтобы помочь людям с нарушениями голоса, либо, чтобы переводить с одного языка на другой. Модель также может воссоздать выступления культовых певцов.

API-интерфейсы и модели, предварительно обученные в NeMo, позволят исследователям разрабатывать и настраивать модели для преобразования текста в речь, обработки естественного языка и автоматического распознавания речи в реальном времени. Некоторые модели обучаются с использованием десятков тысяч часов аудиоданных в системах DGX. Разработчики смогут точно настроить любую модель для своих сценариев использования, ускоряя обучение с помощью вычислений со смешанной точностью на графических процессорах Tensor Core.

NeMo также предлагает модели, обученные в Mozilla Common Voice, наборе данных с почти 14 000 часов речевых данных на 76 языках.

В 2020 году Nvidia представила систему на ИИ, которая создает говорящие головы для видеоконференций из одного 2D-изображения. А недавно компания призналась, что на одной из конференций этого года выступила цифровая копия ее гендиректора Дженсена Хуанга. Разработчики воссоздали 3D-модель не только самого топ-менеджера, но и его кухни, а для работы использовали систему Nvidia Omniverse для работы в трехмерных виртуальных средах.