Как считать звук с пачки из-под чипсов, или что такое «визуальный микрофон»
«Визуальный микрофон» — это техника, позволяющая восстановить аудиоряд с беззвучной видеозаписи. Сегодня мы расскажем о не только о ней, но и других методах и технологиях, которые позволяют дистанционно считывать и восстанавливать музыку или речь.
Фото m01229 CC
Предшественники технологии
Одним из способов записать звук на расстоянии являются лазеры. Так называемые лазерные микрофоны используют для считывания вибраций, вызванных звуковыми волнами. Например, «захватить» звук таким образом можно с поверхности оконного стекла, если в комнате разговаривают люди или играет музыка. Интерферометр фиксирует «движение» поверхности по изменению оптической длины пути отраженного луча. После чего эти отклонения при помощи специальных алгоритмов преобразуют в звуковой сигнал.
В сети есть аудиозаписи, которые показывают, что «лазерные микрофоны» позволяют восстанавливать звук с довольно неплохим качеством. Однако такой подход имеет свой недостаток, связанный со сложностью установки прибора.
Также «записать звук на расстоянии» можно с помощью микроволнового излучения малой интенсивности, которое используется в средствах связи. Подобные технологии применяли в НАСА для улавливания и распознавания слабых радиосигналов в космосе.
Рупорная антенна через стену здания направляет в комнату микроволны с частотой 30–100 ГГц. Если в помещении говорят люди или играет музыка, звуковые волны можно считать по микровибрациям легкий предметов и материалов — в «захваченном» виде они приобретают амплитудную модуляцию. Эта информация затем используется для восстановления звука, воздействующего на объект. Причем этим объектом может быть любая одежда, поэтому такой метод позволяет «перехватывать» даже звук сердцебиения.
Визуальный микрофон — решение ученых из MIT
Ученые из MIT предложили другой способ считывания звука на расстоянии. Они доказали, что возможно восстановить звук на основании видеозаписи. Для этого нужно записать видео объекта с помощью камеры для высокоскоростной съемки и проанализировать микроскопические вибрации, вызванные распространением звуковых волн.
На основании видео строится управляемая пирамида изображений, которая представляет собой набор фильтров, «разбивающих» каждый кадр видеозаписи на комплексные поддиапазоны, соответствующие различным точкам на исследуемом объекте.
Ученые разработали специальный алгоритм (и выложили его в открытый доступ), который вычисляет в каждой из выделенных точек интенсивность звуковых вибраций. Локальные сигналы усредняются, и на их основании формируется один общий сигнал, определяющий то, как звуковые волны воздействуют на объект. Этот сигнал проходит через фильтр верхних частот Баттерворта с порогом среза 20–100 Гц. После чего появляется возможность восстановить аудиозапись.
По словам руководителя исследования Эйба Дэвиса (Abe Davis), визуальный микрофон позволяет получить аудиозапись менее хорошего качества, по сравнению с активными методиками (например, с использованием лазеров), однако он обладает своими преимуществами. Их система не требует дополнительного оборудования и каких-либо детекторов — нужна только высокоскоростная видеокамера. При этом поверхность, с которой будет «считываться звук», не обязана быть зеркальной или гладкой, как того часто требуют лазерные микрофоны.
Команда Эйба пробовала считать звук с бумажного пакета, пачки из-под чипсов и алюминиевой фольги. Они легкие, потому звуковые вибрации на них были наиболее заметны, а результирующий сигнал менее зашумлен. Среди тестовых объектов также было домашнее растение и кирпич, который, по словам ученых, «проявил» себя лучше, чем они ожидали.
Команда сделала видео, в котором показала, как «звучат» те или иные объекты:
Учёные отмечают, что планируют продолжить работу в этом направлении и исследовать возможность воспроизведения аудио с любых видеозаписей, а не только подготовленных специально с помощью высокоскоростной камеры.
Развитие технологии
Другие ученые пытаются улучшить технологию, предложенную группой из MIT. Например, в прошлом году Иранские исследователи представили алгоритм, который ускоряет извлечение звука с «высокоскоростной видеозаписи» и повышает его качество.
На различные области объекта звук воздействует по-разному. Интенсивность вибрации зависит от материала, из которого изготовлен предмет, его формы, частоты воздействующего звука и расстояния до источника. Например, при съемке видео на частоте в 20 кГц звуковые волны перемещаются примерно на 17 мм между двумя фреймами. Поэтому объекты, находящиеся дальше от источника звука, реагируют с задержкой.
Все эти факторы заставляют различные области объекта вибрировать с разной силой. Поэтому ученые при анализе изображений с камеры учитывают только те зоны, которые делают наибольший вклад в формирование результирующего сигнала — наименее «зашумленные» блоки. При этом частоты, их формирующие, имеют различные фазовые сдвиги, чтобы исключить ослабляющую интерференцию.
Иранские исследователи отмечают, что благодаря этому им удалось повысить качество воспроизводимого звука, а также ускорить обработку изображения, по сравнению с исходным алгоритмом MIT. Они говорят, что их система способна обрабатывать изображение и восстанавливать звук в реальном времени.
Потенциал визуальных микрофонов
В целом технология пока является экспериментальной и о полноценной коммерческой реализации речи не идет. Но ей уже пророчат потенциальное применение в сфере правопорядка — полиция сможет получать больше информации с камер видеонаблюдения.
Есть и другие варианты: подобные системы позволят анализировать то, как ведет себя звук в студиях звукозаписи и концертных холлах, чтобы определить их акустические свойства. Другое применение — использовать систему в космической отрасли для изучения звуков в космосе. К слову, резиденты Hacker News уже предположили, что в будущем «визуальные микрофоны» позволят раз и навсегда разгадать загадку высадки на Луну.
Больше интересного о звуке — в нашем «Мире Hi-Fi»:
Наши новые материалы на GT: