Как «нарисовать» и «прочитать» звук20.04.2016 12:51

Как связать звуковую и визуальную информацию? Этим вопросом часто задаются ученые и любители со всего света. Так, в феврале 2006 года новость о том, что ученым удалось воспроизвести звуки с глиняного горшка возрастом более 6500 лет, быстро разлетелась по всему интернету.

Гончар, якобы, нанес музыкальный ритм на горшок при его изготовлении. К сожалению, это оказалось неудачной первоапрельской шуткой бельгийского телевидения.

Однако Патрику Фистеру (Patrick Feaster) удалось обработать запись, возраст которой превышает 1000 лет. По этому поводу в мае 2011 года он выступил на конференции ассоциации ARSC (Association for Recorded Sound Collections) с открытием «палеоспектрофонии».

Погружение в историю: расшифровка записей прошлого
Патрик использует современные технологии (в данном случае — не особенно современные, так как спектрограмму изобрели достаточно давно) для того, чтобы преобразовать визуальные объекты в звуковые. Однако человечество не всегда шло этим путем и пыталось, наоборот, «запечатлеть» звук в образах.

Долгое время (до создания фонографа Томасом Эдисоном) людей волновал вопрос: как придумать такой способ фиксации музыки, который помог бы смотрящему на запись воспроизводить мелодию у себя в голове так же легко, как это делают профессиональные музыканты, глядя на партитуру. К сожалению, по мнению доктора Фистера, такая задача недостижима в принципе, поскольку наш мозг в большинстве случаев недостаточно хорош в преобразовании визуальной информации в звуковую.

Возможно, решение этой задачи в прошлом и не увенчалось успехом, однако история оставила нам множество свидетельств того, как люди в разные эпохи пытались создать подобные системы записи звука. Самая известная из этих систем легла в основу фоноавтографа — предшественника фонографа, изобретенного французом Эдуаром Мартенвилем. Фоноавтограф представлял собой устройство, в котором звук проходил через конус, заставляя вибрировать мембрану, соединенную с иглой. Игла же, в свою очередь, рисовала волнообразные линии на стеклянном цилиндре, покрытом закопченной бумагой.

С помощью фоноавтографа звук можно было запечатлеть, однако не было никакой возможности его воспроизвести. Это задачу и решил Фистер. В 2008 году он, его коллеги, а также аудиоэксперт Дэвид Джованнони (David Giovannoni) собрались в Национальной Лаборатории Лоуренса в Беркли, чтобы расшифровать одну из наиболее хорошо сохранившихся фоноавтограмм Мартенвиля.

В Лаборатории Лоуренса разрабатывались технологии извлечения звуков с высококачественных фотографий, на которых были запечатлены образы хрупких восковых носителей или сломанных дисков. Воспользовавшись данными технологиями, ученые получили с фоноавтограммы запись песенки «Лунный свет» («Au Clair de la Lune»), сделанную в 1860 году. Считается, что это первая запись, на которой различим человеческий голос.

Однако решения этой задачи Фистеру оказалось недостаточно: впоследствии он не только зафиксировал звук с более чем 50 фоноавтограмм, но и исследовал более ранние попытки «записи звука». В этом ученому, как ни странно, помог сервис Google Books. Используя его, Фистер записывал символы из книг, которые постоянно игнорировались, считаясь историческими причудами.

Самую старую волнообразную линию он нашел в книге 1806 года. Посредством других техник ему удалось расшифровать мелодию 1677 года, которая была записана множеством точек. Еще одна была обнаружена в записях 10 века, где линиями было показано, в какой тональности следует петь. Примеры таких записей можно найти на его сайте Phonozoic.

Другой подход
По другому пути идут исследователи из MIT, Microsoft и Adobe: они реконструируют звук по движущейся (а точнее, вибрирующей) картинке. Исследователи разработали алгоритм получения аудиосигнала из вибраций, записанных на видео.

В одном из таких экспериментов им удалось извлечь разборчивую речь с записи пустого пакета из под чипсов. В ряде других экспериментов то же удалось проделать с поверхностью алюминиевой фольги, бокалом с водой и даже с листьями домашнего растения. В 2014 году команда презентовала свои достижения на ежегодной конференции SIGGRAPH.

[embedded content]

Видео с выступления одного из исследователей, работавших над проектом, на конференции TED

Дело в том, что когда звук соприкасается с объектом, он заставляет его вибрировать. Движения, созданные этими вибрациями, настолько незначительны и незаметны, что человек не может их увидеть. Однако их может «увидеть» камера: для извлечения аудиосигнала из видео, ученые использовали видеозапись с частотой захвата кадров выше, чем частота аудиосигнала.

Изначально в экспериментах применялись камеры с частотой съемки 2000 и 6000 кадров в секунду, однако исследователи пробовали использовать и другие, более бюджетные камеры. Конечно, из записанного видео с частотой съемки 60 кадров в секунду не удавалось извлечь членораздельную речь, но все же представлялось возможным понять, сколько человек находилось в помещении, их пол и даже особенности их произношения.

Конечно, при мысли об использовании таких разработок, в голову приходят «шпионские истории», однако сами исследователи называют свой проект возможностью открыть новые грани в изображении предметов и изучить их ранее неисследованные свойства. И если сотни лет назад люди пытались придумать способ «записи звука», то теперь такая «запись» становится побочным эффектом, который, в свою очередь, помогает раскрыть новые свойства привычных объектов.

Сделай сам
Как уже говорилось, первую фоноавтограмму удалось расшифровать благодаря технологии воспроизведения звука по фотографиям старых пластинок (об этой технологии мы уже писали в одном из наших материалов — в нем же приводятся и ссылки на расшифрованные аудиозаписи). Однако Патрик Фистер подчеркивает, что с этой задачей может справиться любой желающий — если знает, что делать.

Подробный процесс описан в этом материале. От себя заметим, что для решения задачи вам понадобится качественное фото, базовые навыки владения Photoshop (волну, прочерченную на виниле, надо оцифровать, «распрямить» — бороздка на пластинке закручивается по спирали — убрать всевозможные шумы и смещения), а также относительно мощный компьютер с большим объемом оперативной памяти.

Для того, чтобы преобразовать полученное изображение в WAV-файл, Патрик использует довольно экзотическое ПО: это программа ImageToSound. Она бесплатна, но, несмотря на это, ее достаточно сложно найти в сети (Патрик поделился источником).

Программа последовательно конвертирует каждый блок изображения (ширина блока — 1 пиксель) в аудиосэмпл. К сожалению, это ПО не поддерживает даже Windows 7 (автор использует для работы отдельный компьютер с Windows 98). В качестве альтернативы Фистер предлагает использовать программу AEO-Light, но предупреждает, что сам не до конца знаком с тонкостями работы с ней.

Последний этап — регулирование скорости воспроизведения. Тут на помощь приходит простая математика. Для начала нужно узнать скорость воспроизведения на оригинальной пластинке, длину одного оборота оцифрованной волны (после «деспирализации») в пикселях и частоту дискретизации конечного файла.

Если изображение было отредактировано в аудиофайл с частотой дискретизации 44.1 кГц, то это означает, что секунда аудиофайла будет равна 44 100 пикселям изображения. Если, к примеру, скорость песни на виниловой пластинке была равна 50 оборотам в минуту, а после оцифровки и деспирализации один оборот пластинки занял 30 000 пикселей, мы получаем 1 500 000 пикселей в минуту (50×30 000).

Если поделить это количество на 60, мы получим количество пикселей в секунду (1 500 000/60 = 25 000). Делим частоту дискретизации на количество пикселей в секунду (44 100/25 000 = 1.764). Полученное число умножаем на длину аудиофайла (время проигрывания песни) и получаем время, с которым изначально был записан этот файл. Если скорость воспроизведения оригинальной записи неизвестна, Патрик советует подобрать итоговую скорость на слух.

Патрик Фистер предупреждает — это довольно кропотливый труд, который требует времени и терпения, но при этом дает порой удивительные результаты: особенно когда дело касается голосов прошлого, которые, казалось бы, были навсегда утеряны.

P.S. Больше материалов по теме аудиотехники — в нашем блоге «Мир Hi-Fi».