Нейросеть научили имитировать речь собеседника при прерываниях в аудиозвонках02.04.2020 20:33

Это сделали разработчики из Google

5a4790205938305f82ca20ebbb5fc06ccddc4d0b

Из-за нестабильного соединения во время звонка речь человека на другом конце провода может звучать прерывисто. Разработчики Google решили эту проблему. Они научили нейросеть имитировать речь собеседника при прерываниях в аудиозвонках.

Дело в том, что при видеозвонках через интернет из-за прохождения сигнала через множество сетей часть аудиопакетов может теряться. Сейчас во всех сервисах применяются алгоритмы маскировки потери пакетов (PLC). Однако при потере слишком большого количества пакетов и увеличении паузы до нескольких десятков миллисекунд могут наблюдаться искажения.

Разработчики из Google и DeepMind представили специальный алгоритм, который может создавать замену утерянным пакетам. Основан алгоритм на нейросети. Она анализирует последние фрагменты речи, а затем заполняет паузу синтезированным голосом собеседника.

Технологию уж протестировали на смартфонах Pixel 4.