Нейросеть Facebook заговорила голосом Билла Гейтса
Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.
Созданная Facebook модель для синтеза человеческой речи называется MelNet, и это не первая коллекция клипов, которую она производит. Виртуальному двойнику Гейтса предшествовали имитации Джорджа Такеи, Джейн Гудолл, Стивена Хокинга и других знаменитостей. Подобный отбор персоналий вызван тем, что нейросеть тренировали преимущественно на архиве записей TED Talks — коротких лекций на темы, связанные с наукой, искусством и технологиями. Также дополнительно привлекались материалы из аудокниг, которые отличаются «оживленной манерой речи» исполнителя. Однако до сих пор даже тщательный отбор материала не мог избавить конечный результат от характерных механистических ноток.
Разработчики объясняют этот прорыв тем, что в отличие от WaveNet компании Google и других современных моделей, генерирующих речь, MelNet обучали не на графическом представлении амплитуды звуковых волн, а на спектрограммах. Метод амплитуд чрезмерно дробит звуковой поток, фиксируя изменения сигнала по миллисекундам, что затрудняет для искусственного интеллекта выявление нужных корреляций. В итоге некоторые характеристики речи (высота, тембр) улавливаются и впоследствии воспроизводятся в ущерб другим (интонация, фонемный состав). Спектрограммы представляют собой более информационно насыщенный формат, данные в них подаются в компактном виде, и комплексный анализ звукового потока проходит без помех.
Тем не менее, как отмечают и сами создатели MelNet, технология еще далека от совершенства. В клипах на Github не случайно озвучиваются короткие фразы: нейросеть пока способна точно выстраивать интонационный рисунок только для отдельных предложений. Обработка сложных смысловых массивов на таком же уровне — например, драматическое чтение небольшого рассказа или монолог, где меняются темы и эмоциональные окраски — на сегодняшний день невозможна.
Однако уже и в текущем своем виде разработка может найти применение в голосовых ассистентах, на горячих линиях и в прочих ситуациях, когда общение протекает по заданному сценарию и легко автоматизируется. Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении. Васкез и Льюис в своем интервью не затрагивали дальнейших планов по внедрению технологии и контролю рисков.