Нейросеть сделала фальшивого Обаму14.07.2017 08:22

Цифровые двойники известных политиков и актёров находятся под полным контролем «кукловода». Иллюстрация: Вашингтонский уерверситет, 2015

Программы 3D-графики вкупе с нейросетями достигли такого качества, что фейковое видео практически неотличимо от настоящего. Скоро нельзя будет сказать с уверенностью, что человек на экране телевизора — настоящий политик, а не компьютерная симуляция.

В декабре 2015 года учёные из Вашингтонского университета представили технологию «цифровых двойников»: создание «живых» 3D-моделей из сотен фотографий одного персонажа. На знаменитостей и политиков в интернете собран огромный фотоархив. Программа создаёт модель, а та словно кукла на верёвочках — ею можно управлять как угодно, придавать разные выражения лица, произносить губами любую речь.

Сейчас в преддверии конференции по компьютерной графике SIGGRAPH 2017 та же группа исследователей опубликовала новую научную работу с продвинутой версией «цифровых двойников».
Теперь при обучении программы используются не только фотографии, но ещё видеоролики, так что обучение стало гораздо эффективнее. Для демонстрации технологии учёные выбрали известного персонажа — бывшего американского президента Барака Обаму. Это грамотный выбор, потому что в интернете огромное количество HD-видеоматериала с ним. Для обучения нейросети доступны миллионы кадров видео.

Нейросеть изучила во всех деталях особенности мимики Обамы: движения губ при каждом звуке, появление морщинок около глаз, изменения формы бровей и наклона головы. Мимику подопытного персонажа связали со звуками, которые он произносит: нейросеть обработала не только кадры видеороликов, но и звуковые дорожки к ним.

Таким образом, слабый ИИ научился синхронизировать мимику лица и движение губ с любой произвольной речью, которую исследователи подают на вход нейросети.

В тизере к научной работе сравниваются реальные видеозаписи выступлений Обамы и результат, синтезированный нейросетью.

[embedded content]

Нужно заметить, что синтезированный результат заметно отличается от оригинала, но всё равно выглядит весьма реалистично.

Исследователи подчёркивают, что раньше для получения «цифровых двойников» людей заставляли многократно повторять одни и те же фразы перед камерами, чтобы записать все сочетания морфем и мимики. Теперь это можно делать по общедоступным видеоматериалам. Правда, не на каждого человека в интернете найдётся достаточно видеоматериалов, чтобы подделать его личность, но со временем пользователи сами решают эту проблему, закачивая в социальные сети гигабайты своих фотографий и видеороликов.

С практической точки зрения этой технологии тоже найдётся применение. Например, один из соавторов научной работы Айра Кемельмахер-Шильзерман (Ira Kemelmacher-Shlizerman) говорит, что она улучшит качество видеоконференций, синтезируя недостающие кадры, если они выпадают из видеопотока. Если звук идёт без помех, а видео лагает, то такой синтез дополнит картинку или повысит её разрешение. Конечно же, технология может найти применение в компьютерных играх и виртуальной реальности, если игрок общается с виртуальным персонажем. Теперь речь виртуального персонажа станет более реалистичной, и он может быть цифровой копией какого-нибудь настоящего человека. Например, можно «оживить» какую-нибудь историческую личность из недавнего прошлого только по его аудиозаписям. Конечно же, облегчится создание фейков в политических целях. Если сейчас они лепятся в «Фотошопе» и вбрасываются в соцсети, то в будущем фейковые видео покажут по ТВ.

Авторы признают, что технология пока работает неидеально. Например, если Обама немного поворачивает лицо от камеры, то части его рта могут отделиться от лица и наложиться на фон. Но это мелкие погрешности, которые можно исправить дополнительным обучением нейросети.

Другой недостаток созданной модели — она не моделирует эмоций. Выражения лица абсолютно нейтральны и практически всегда одинаковы. Таким образом, в некоторых случаях цифровой двойник теряет реалистичность: его выражение лица кажется слишком серьёзным для легкомысленных слов, которые он произносит. Или наоборот — слишком легкомысленным для очень серьёзных речей. Впрочем, такие казусы случаются и с настоящими политиками в реальной жизни.

Созданная технология похожа по принципу работу на программу для создания цифровых двойников Face2Face, где мимика и речь одного человека переносится на лицо другого. В своей научной работе авторы из Вашингтонского сравнивают результаты своей нейросети с программой Face2Face. Они объясняют, что в случае с Face2Face всегда требуется видеопоток для имитации, а их модель работает только по звуковой записи.