Кто занимается дипфейк-аудио и зачем это нужно

С начала года появилось сразу несколько новых систем ИИ, способных синтезировать видеозапись с говорящим человеком на основе аудио. Расскажем, кто и с какой целью занимается подобными разработками. Также поговорим о других инструментах, позволяющих редактировать аудиозаписи.

lb1k24cqmt_xny9bwaegapch1hw.jpeg
Фото Erik-Jan Leusink / Unsplash

Что делают


В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе Neural Voice Puppetry.

Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс состоит из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит логит-модель, отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.

Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.

Аналогичную технологию разрабатывают инженеры из Наньянского университета в Сингапуре. Их система позволяет объединить запись речи одного человека с видеозаписью другого. Первым делом она формирует 3D-модель лица для каждого кадра на целевом видео. Далее, нейросеть анализирует ключевые мимические точки, и модифицирует трехмерную модель так, чтобы её выражения совпадали с фонемами исходного аудиофайла. По словам авторов, их инструмент превосходит по качеству аналоги. Во время слепых тестов респонденты пометили 55% записей как «настоящие».

Где применяют


В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer) реализовал помощника Cortana из ОС Windows 10 в виде голограммы. Системы искусственного интеллекта для формирования дипфейков переведут подобные решения на новый уровень. Еще одна область применения таких алгоритмов — игровая индустрия. Генерация лицевой анимации по звуковой дорожке упростит работу гейм-дизайнеров, настраивающих мимику виртуальных персонажей.

Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление было совершено в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Поэтому специалисты из университетов активно работают с правоохранительными органами и политиками, чтобы предотвращать подобные ситуации. Например, Колорадский университет в Денвере разрабатывает инструменты для распознавания поддельных аудио и видеозаписей. В будущем подобных проектов будет становиться только больше.

Какие еще есть проекты


Есть инструменты, которые позволяют редактировать аудиозаписи также легко как обыкновенный текст. Например, Descript предлагает аудиоредактор, который транскрибирует слова спикера и позволяет отредактировать их в текстовом виде. Можно добавить паузы, переставить фрагменты местами — все правки синхронизируются с аудиозаписью. Разработчики говорят, что система обрабатывает файлы в .m4a, .mp3, .aiff, .aac и .wav, а точность транскрибирования превышает 93%.

adkbf1x5vbr6kh0fmg9emjhpvx8.jpeg
Фото Yohann LIBOT / Unsplash

В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне представили «фотошоп для аудио» — систему VoCo. Она позволяет не только редактировать записи в текстовом виде, но и синтезировать фразы голосом спикера (с учетом интонаций).

В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».


Дополнительное чтение в нашем блоге «Мир Hi-Fi»:

1osf72wkwrjhzpl2bwl5hcmwnbq.png«Стервозная Бетти» и аудиоинтерфейсы: почему они говорят женским голосом
1osf72wkwrjhzpl2bwl5hcmwnbq.pngАудиоинтерфейсы: звук как источник информации на дороге, в офисе и в небе
1osf72wkwrjhzpl2bwl5hcmwnbq.pngПервый в мире «гендерно-нейтральный» голосовой помощник
1osf72wkwrjhzpl2bwl5hcmwnbq.pngИстория синтезаторов речи: первые механические установки
1osf72wkwrjhzpl2bwl5hcmwnbq.pngКак синтез речи появился на ПК

© Habrahabr.ru