Разработка российской команды реалистично анимирует лица по одному кадру
Новый проект от группы российских исследователей из Сколково знаменует очередной этап в развитии технологий распознавания и генерации лиц. Созданная ими нейросеть синтезирует динамичные изображения людей на базе любого числа доступных изображений, начиная с одного.
Данная разработка — не первая попытка воссоздать черты и мимику человека при помощи генеративных состязательных сетей. Генерация статических изображений развивается особенно бурно: в прошлом году появилась модель TL-GAN, создающая лица на основе параметров, заданных пользователем, а буквально несколько месяцев назад был запущен алгоритм StyleGAN, синтезирующий лица путем объединения черт нескольких людей с возможностью адаптации результата под нужный возраст, пол и другие характеристики.
Для динамических генераторов сейчас приоритетно достижение максимальной реалистичности движущихся изображений на ограниченном объеме материалов. Все предшествующие проекты объединяло то, что для создания убедительного результата моделям требовалось большое количество статичных фотографий с целевым объектом и значительный расход времени. Исследователи Егор Захаров, Александра Шишея, Егор Бурков и Дмитрий Лемпицкий сумели свести оба этих показателя к минимуму.
Исследователи описывают процесс обучения модели как «очень прямолинейный». За набором данных они обратились к архиву VoxCeleb2, где хранится более сотни тысяч видеороликов с Youtube с крупными планами разговаривающих знаменитостей. Разработчики отмечают, что качество изображений сильно варьировало, однако им удалось избежать коллапса генератора. В дальнейшем они планируют отобрать для выборки видео с хорошим разрешением, чтобы достичь еще более убедительной симуляции.
Обработав представленный материал, алгоритм выделил опорные точки на человеческом лице и соотнес разные типы их взаимного расположения с определенными выражениями и ракурсами. На базе получившихся систем ориентиров, схематично передающих динамику разных типов лица при разговоре, модель может генерировать анимацию, где соответствующую мимику повторяет человек с любого загруженного изображения. Для создания симуляции «говорящей головы» достаточно единственного кадра, причем это может быть как фотография, так и простой портрет. Чем больше число доступных изображений, тем более реалистичной и детализированной получается анимация.
Разработчики продемонстрировали возможности модели в видеоролике, где по фотографиям и портретам воссозданы лица ряда знаменитостей разных эпох, от Федора Достоевского до Мэрилин Монро. Подобная способность визуально «оживлять» деятелей прошлого может найти практическое применение в музейных экспозициях или учебных материалах. Однако сообщество указывает и на потенциальную возможность злоупотребления технологией в целях клеветы или пропаганды.