Исследователи использовали рекуррентную нейросеть с долгой краткосрочной памятью, а данные, полученные на выходе из неё, передаются в нейросеть WaveNet, декодирующую их в аудиозапись человеческого голоса. Для обучения был собран датасет из 20 часов записи слышимой и беззвучной речи, представленной в виде трёх типов данных. После обучения разработчики проверили понятность генерируемых записей.

В качестве метрики учёные использовали стандартную пословную вероятность ошибки — сумму изменённых, отсутствующих и лишних слов, поделённую на общую длину текста. Для простых фраз, наподобие дат и других чисел, вероятность ошибки полноценной нейросети составила 3,6, а для той, которую обучали только на слышимой речи, она составила 88,8. Для сложных фраз, вроде отрывков из книг, разница была не такой большой: 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.

Популярная Механика прочитано 9284 раза