Google выпустила большой датасет дипфейков для борьбы с ними27.09.2019 08:20

Google в сотрудничестве с компанией Jigsaw (бывшей Google Ideas) выпустила обширный датасет, в который вошло более трех тысяч видеороликов, созданных с помощью искусственного интеллекта. Видеоролики исследователи добавили в другой большой проект, посвященный подмене лиц на видео, — FaceForensics++.

«Машинное обучение привело к появлению технологий, которые считались невозможными всего несколько лет назад. Сегодня можно синтезировать гиперреалистичные изображения, речь, музыку и даже видео. Эта технология создает новые проблемы. Так называемые «глубокие подделки» являются одной из них», — пишут в Google.
Google серьезно относится к этим вопросам, заявляют в компании.
«В январе прошлого года мы объявили о выпуске набора образцов искусственно созданной речи в поддержку международной задачи по разработке методов выявления поддельных аудиозаписей. Набор данных был загружен более чем 150 научно-исследовательскими и отраслевыми организациями и находится в свободном доступе для общественности. Сегодня мы объявляем о выпуске большого датасета видеодипфейков».

Для разработки датасета Google набрала актёров — как добровольцев, так и на платной основе, — из которых произвольно, случайным образом были составлены пары, после чего нейронные сети поменяли лицо одного актера из пары на лицо другого. Актёры снимались в самых разных сценах, пишут в Google, и в результате «обмена лицами» получились как почти незаметные, так и радикальные изменения. Для создания роликов в Google воспользовались публично доступными алгоритмами, такими как Deepfakes, Face2Face, FaceSwap и NeuralTextures. Разработчики отмечают также, что в будущем датасет будет пополняться.

«Как часть теста FaceForensics этот набор данных теперь доступен бесплатно для для использования при разработке методов обнаружения искусственно созданных видео», — пишут в Google.

Скачать датасет можно на странице GitHub FaceForensics, однако доступен для исследователей он будет только после одобрения авторами проекта.

Ранее, в начале сентября, Facebook совместно с Microsoft и коалицией «Партнёрства по искусственному интеллекту во благо людей и общества» (PAI), а также научными работниками из нескольких университетов анонсировала конкурс на разработку технологии распознавания дипфейков. В рамках проекта, который получил название Deepfake Detection Challenge, Facebook поручила исследователям создавать реалистичные дипфейки. После этого участники конкурса будут прорабатывать алгоритмы обнаружения deepfake. Авторы лучших получат гранты. Призовой фонд проекта — $10 миллионов.