ИИ-шумовик генерирует звуки не хуже профессионала-человека12.08.2020 14:02

Исследователи из США разработали ИИ-систему под названием AutoFoley. Программа анализирует, что происходит на видео, и генерирует звуки, соответствующие сцене. Авторы рассчитывают, что такая программа сможет добавлять звуковые эффекты в видео не хуже специалиста-человека.

Обычно звуковые эффекты для фильмов или видеоигр записываются в студии. Как отмечают исследователи, это не самая простая работа: специалисту сначала нужно выбрать звуки, которые улучшат восприятие слушателя и смогут точно выразить замысел режиссёра. Специалист-шумовик должен решить, какой звук передаст суть действия, изображённого в сцене. Например, для записи звука бьющегося стекла шумовику может потребоваться несколько раз разбить настоящее стекло до тех пор, пока звук не будет точно соответствовать видеоряду.

«Работа шумовиков использовалась для создания звуковых эффектов в кино и телевидении с 1930-х годов, — объясняет Джефф Прево, профессор Техасского университета, соавтор программы AutoFoley. — Фильмы казались бы пустыми без реалистичного звукового ряда. Однако процесс добавления шумовых эффектов вручную значительно увеличивает время и затраты на создание кинофильма».

Прево с аспиранткой Санчитой Гхош разработали систему, которая будет синтезировать звуки, подходящие по смыслу к сцене, автоматически. Исследователи создали две разные модели, которые распознают действие в видео и определяют, какой звук будет ему соответствовать. Первая модель синтезирует звук на основе особенностей видеоряда (например, цвет и движение). Вторая модель анализирует длительность отдельных кадров и пытается угадать, какое действие происходит на видео. Звук синтезируется в соответствии с движением, которое предсказывает модель.

Прево и Гхош использовали AutoFoley для создания звука в тысяче коротких видеороликов, запечатлевших ряд обычных действий — дождь, тикающие часы, скачущая лошадь. Анализ показал, что AutoFoley лучше всего работает тогда, когда звук необязательно должен точно совпадать с видео (например, когда программа синтезирует звук дождя или потрескивание поленьев в костре).

Затем Прево и Гхош опросили 57 студентов местного колледжа. Они попросили их указать, в какие видеоклипы, по их мнению, был добавлен искусственный звуковой ряд. Во время испытаний первой модели 73% опрошенных студентов приняли звук, синтезированный AutoFoley, за оригинальный. Вторая модель смогла «обмануть» 66% респондентов.

Прево планирует запатентовать технологию. Модель AutoFoley описана в исследовании, опубликованном в журнале IEEE Transactions on Multimedia.