Microsoft создала инструмент имитации любого голоса, которому достаточно трёхсекундного образца голоса

Компания Microsoft объявила о создании инструмента для имитации любого голоса, которому достаточно трёх секунд звука этого голоса. Модель разработанного искусственного интеллекта названа VALL-E. 

eea65702f9d0fc42f319dec7ada7c30a.jpeg

По утверждению разработчиков, модель способна точно воспроизвести голос любого человека — для этого модели достаточно трёхсекундного образца. Услышав конкретный голос, VALL-E создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.

746856e6ed904341cac4487a99d05a07.jpeg

Технология представляет собой нейронную языковую модель, в основе которой лежит EnCodec. VALL-E с помощью неё разделяет голос человека на отдельные компоненты. Потом эти компоненты или как их называют «лексемы», нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз.

Хоть Microsoft  и представила на GitHub эту языковую модель, она не опубликовала код VALL-E в открытом доступе. Компания считает, что может быть риск неправильного использования модели. Например, подмену идентификации голоса или выдачу себя за конкретного актера озвучивания или диктора.

© Habrahabr.ru