ИИ-инструмент от Adobe делает размытое видео четким27.04.2024 08:30

Команда инженеров по видео и искусственному интеллекту из Adobe Research разработала приложение искусственного интеллекта под названием VideoGigaGAN. Инструмент может принимать размытый образец видео и после обработки возвращать тот же образец со значительно повышенной резкостью и четкостью, сообщает TechXplore.

Команда использовала генеративно-состязательную нейросеть (GAN), чтобы научить систему тому, как выглядит четкое и резкое видео (например, отдельные волоски на бровях, а не размытая масса). Затем, для обеспечения согласованности между кадрами видео, был добавлен «модуль распространения с управляем потоком».

Сравнение подхода ученых Adobe (помечено как Ours) с другими методами. Источник: arXiv, 2024

Генеративно-состязательные сети состоят из двух нейронных сетей: генератора и дискриминатора, которые соревнуются друг с другом в процессе обучения. Генератор старается «обмануть» дискриминатор, производя данные, которые дискриминатор ошибочно принимает за настоящие. При этом дискриминатор стремится стать более точным в различии между реальными и сгенерированными данными.

Ученые также использовали методы сглаживания, чтобы предотвратить глюки искусственного интеллекта, и «перенаправление высокочастотных деталей» для обработки резкого снижения качества видео.

По словам исследователей, система способна увеличить качество видео до восьми раз. И все это без неестественных цветов, неровных линий и других распространенных проблем, возникающих при обработке видео с помощью искусственного интеллекта.

Разработчики признают, что часть выходного видео полностью синтезируется VideoGigaGAN на основе оценок системы. Например, для достижения высокой четкости к видео могут быть добавлены поры на коже, морщинки вокруг глаз или даже ресницы. То есть ИИ «дорисовывает» необходимые элементы.

Пока неясно, выпустит ли Adobe это приложение для общего использования.

Ранее Adobe представила нейросеть для создания музыки. Project Music GenAI Control позволяет генерировать аудио на основе текстового описания.