Простыми словами о цифровом и аналоговом звуке
На очереди транскрипт десятого выпуска (22.05.2014) подкаста «Звук». В нем Дмитрий Кабанов беседует с Анатолием Дмитриевичем Арсёновым, к. т. н., физиком по образованию, экспертом в области IT и цифрового звука, инженером в компании F-Lab на тему цифрового и аналогового звука.
[Прослушать этот выпуск]
[Подробнее о подкасте]
Транскрипты других передач:
Дмитрий Кабанов: Мы продолжаем беседовать с экспертами и инженерами «Аудиомании», и сегодня мы попытаемся копнуть глубже, посмотреть на природу цифрового и аналогового звука, и, наверное, мы начнем с вопроса о том, что такое звук в принципе. Чем в базовом понимании, простыми словами, отличается аналоговый звук от цифрового звука или аналоговое представление звука и цифровое представление звука?
Анатолий Арсёнов: Отвечая на этот вопрос, я думаю, уместно привести простые модели, знакомые, может быть, [из] школьного курса любому российскому образованному человеку. В частности, история звука [как] цифрового, [так] и аналогового начинается давно, как ни странно, еще до появления цифровых устройств. Всем знакома передача голоса человека с помощью обычного проводного телефона. Вот это [и является] реальным примером передачи аналогового звука на расстоянии. В данном случае говорящий имеет перед собой телефонную трубку, в которой есть микрофон и мембрана, колеблющаяся в соответствии с голосом человека, на противоположном конце происходит обратная процедура, то есть колеблется мембрана телефона, находящегося у уха абонента.
Что передается по кабелю? Мы имеем сигнал переменного напряжения: ток в кабеле изменяется в соответствии с тем, как говорит человек, вот так скажем, чтобы не вдаваться в подробности. Что такое цифровой звук? Здесь [можно привести аналогичный пример] из того же времени — телеграфная передача сигнала, азбука Морзе. В данном случае диктор имеет перед собой какой-то текст, но он должен знать азбуку Морзе. Дальше, кем кодируется текст? Самим человеком, который знает как передать букву «А», как передать букву «Б» и т. д. Что отправляется в сигнальную линию? Отправляются сигналы: точка и тире, то, как примерно кодируется сейчас звук — нулями и единицами, двумя сигналами передаются два состояния.
Что должен сделать абонент на противоположной стороне [если он] хочет понять, принять этот текст, получить это сообщение? Он должен знать азбуку Морзе, он должен получать вот эти самые точки и тире, а зная их, уже понимать, о чем идет речь. Вот вся, собственно говоря, разница. В одном случае передается сигнал, который носит характер модели голоса человека, передающегося путем электрических сигналов, во втором случае мы имеем передачу символов, которые закодированы каким-то условным образом. В данном случае это были точки и тире. Спустя много лет, в современную эпоху, мы уже имеем два типа передачи сигналов, которые очень далеко разошлись между собой от той старой истории.
Дмитрий: Получается что цифровой звук или цифровое представление звука можно понимать, как некий компромисс, который мы получаем, беря аналоговый звук и преобразовывая его в цифру.
Анатолий: Ну, компромисс это или нет…Компромисс с чем? С возможностями аппаратуры? Да, это компромисс. Дальше, с потребностями современной техники передать большее количество информации за единицу времени на более дальние расстояния с высоким качеством и способностью к последующей коррекции? Да, это компромисс. Конечно, для того, чтобы передавать аналоговый звук на дальние расстояния с высоким качеством, аппаратура должна иметь соответствующие мощности, и я не скажу, что она будет дешевой, она будет всегда материалоемкой.
На определенном этапе развития техники оказалось наиболее продуктивным передавать сигналы не в явной форме, как это происходит в аналоговой аппаратуре, а в виде некоторой модели, таблицы чисел, здесь я могу привести аналогичный пример из несколько другой практики тоже знакомой, наверное, каждому. Значит, имея географическую карту…вот как можно своему товарищу передать информацию, если стоит задача добраться из одной точки в другую? Нужно взять карту, начертить карандашом линию, как ты шел или как ты собираешься идти, и эту карту переслать, вот вам, пожалуйста — мы передаем информацию в явной форме.
Можно поступить другим образом — зная, что у товарища есть точно такая же карта, передать табличку с координатами точек. Что в данном случае будет передаваться? Листочек, на котором будет записана таблица: широта, долгота, широта, долгота, широта, долгота и т. д. В данном случае это будет просто таблица чисел. Товарищ, получив эту таблицу, взяв свою карту и отметив эти точки по координатам, сразу же определит, как идти. Что мы передали в [этом] случае? Саму карту с маршрутом или мы передали таблицу, какую-то кодировку?
Вот это все происходит и в цифровой технике. Непременным элементом в цифровой технике является кодировщик или раскодировщик, ну это раньше так говорили, в цифровой технике принято говорить, что это цифро-аналоговое преобразование.
Дмитрий: Отличный пример, мне кажется, а стоит ли нам здесь зацепить [тему] хранения? Формат, понимание форматов, понимание их разницы, потому что существует много мифов о том, какие форматы у нас есть — с потерями, без потерь, по-разному сжимающие файл и т. д.
Анатолий: Как видно из приведенных примеров, цифровая форма является условной формой передачи сигнала — это система формализации, если говорить математическим языком. Сигнал передается в условной форме математической модели — если говорить еще более глубоко, то это матрица, которая содержит определенные числа, [характеризующие] сигнал в каждый момент времени.
Если говорить применительно к звуку, то что цифры передают? Цифры передают спектр сигнала, его амплитуду, громкость. Частоты этого сигнала, высокие, низкие, [то] как эти частоты связаны между собой тембрально и т. д. — это спектральная характеристика, переведенная в числовую форму, которая передается [на устройство].
На заре компьютерной техники возможности персональных компьютеров были не очень широки. Для того, чтобы реализовать простые задачи, необходимо было компьютерному устройству иметь достаточные емкость памяти и производительность центрального процессора. Это не позволяло цифровой форме детально отображать записанный звук. Простой пример: если к старому компьютеру пятнадцатилетней давности присоединить звуковую карту, подключить микрофон, оцифровать свой голос, то я не думаю, что [результат] понравился бы многим, [а именно] качество записанного голоса.
Ну объективно, почему? На вход звуковой карты подавался сигнал с микрофона. Частотные характеристики цифрового тракта были тогда достаточно скромными, и поэтому преобразование аналогового сигнала, то есть звука в схему, которая позволяет в цифровом виде отображать этот звук внутри компьютеров…это был сложный процесс и, естественно, производители и разработчики устройств того времени, пытаясь экономить память и производительность процессора, создавали простые схемы кодирования звука в ту форму, в которой он может храниться в компьютере.
К чему это приводило? К потерям. В качестве звука прежде всего. С ростом производительности компьютерной техники, производительности центрального процессора, увеличения объемов памяти, эта проблема потихонечку стала сниматься с повестки дня, но тем не менее подходы, которые были сформированы в то время, наложили свой отпечаток на развитие цифровой техники. В свое время, если память мне не изменяет, это [был] 1994 год, [велись] работы Фраунгоферского института по созданию формата MP3 — этот формат и на сегодняшний день очень популярен для хранения музыки и различных аудиоданных в портативной технике, в частности, в смартфонах.
Дмитрий: Приведем краткую вики-справку: MP3 (более точно, англ. MPEG-½/2.5 Layer 3;, но не MPEG3) — это кодек третьего уровня, разработанный командой MPEG, лицензируемый формат файла для хранения аудиоинформации. MP3 разработан рабочей группой института Фраунгофера под руководством Карлхайнца Бранденбурга из универститета Эрланген-Нюрнберг в сотрудничестве с AT&T Bell Labs и Thomson.
Основой разработки MP3 послужил экспериментальный кодек ASPEC (Adaptive Spectral Perceptual Entropy Coding). Первым кодировщиком в формат MP3 стала программа L3Enc, выпущенная летом 1994 года. Спустя один год появился первый программный MP3-плеер — Winplay3. При разработке алгоритма тесты проводились на вполне конкретных популярных композициях. Основной стала песня Сюзанны Веги Tom«s Diner. Отсюда возникла шутка, что «MP3 был создан исключительно ради комфортного прослушивания любимой песни Бранденбурга», а Вегу стали называть «мамой МP3».
Анатолий: Чем он характеризуется? [Каково] его отличие от звука, который никаким образом, кроме преобразования в цифру, не отличается от аналогового сигнала (эти файлы мы раньше называли wave-формы)? Кто знаком с компьютерами Apple, там [такие] файлы имели формат, который называется AIFF, насколько я помню.
Дмитрий: Да, так и есть.
Анатолий: Форма этих двух файлов, формат этого файла, представляет из себя просто цифровое отображение аналогового звука. Но в компьютерах того времени он занимал очень большой объем и таких файлов в компьютере могло храниться немного. Чем отличался MP3?
Математики Фраунгоферского института, подходя к этой проблеме, решили упростить эту математическую модель, то есть убрать из цифровой модели реального звука то, что никак не будет воспринято человеком при прослушивании. Какие моменты подверглись математической обработке прежде всего? Были использованы основополагающие законы акустики. Один из них гласит, в частности: если прозвучал какой-то сигнал, ну, допустим, удар колокола или кто-то взял аккорд на рояле и в это же самое время раздался какой-то тихий звук, разница в громкости которого [с первым звуком] превышает 90 дБ — единицу, с помощью которой измеряют звуковое давление — этот звук никаким образом, никаким человеком с чудо-ушами не будет услышан.
Дмитрий: Поэтому информацию можно выкинуть.
Анатолий: Никто [этот звук] не услышит. Если разница между самым громким и самым тихим звуком в данный момент времени больше 90 дБ, то спокойно можно эти звуки из записи удалить, вырезать. Это один из способов. То, что здесь происходит, специалисты [называют] маскированием низкоуровневого сигнала сигналом более высокого уровня.
Другой способ: как правило, Hi-Fi аппаратура позволяет зафиксировать сигналы с определенными частотами — если говорить о частотах и не использовать такие понятия как высокие, низкие и средние частоты. Сигналы с частотами от 20 Гц до 20000 Гц — это полоса, которую аппаратура может воспроизвести. Услышит ли человек весь этот диапазон? Если посмотреть с точки зрения восприятия человека и ввести такой термин, как психоакустика, то [также] можно произвести некоторые упрощения сигнала.
Тем, кто хочет проверить остроту слуха и сравнить звучание различных аудиосистем, Аудиомания предлагает услугу прослушивания техники на дому. На фото — работа инсталляторов Аудиомании
Большинство взрослых людей — те, кто перевалил за подростковый возраст, как правило не слышат частоты выше 16 кГц, значит, диапазон выше 16 кГц тоже каким-то образом можно математически редуцировать и, таким образом, убрать эту информацию из того файла, который был записан с помощью цифрового микрофона, поскольку он тоже не будет адекватно воспринят слушателем. То же самое происходит и в низком диапазоне: те, кто заняты физиологией человека, знают о том, что любой человек, если он нормален, конечно, и у него нет никакой патологии, не воспринимает низкочастотные сигналы ниже 16 кГц ухом — он воспринимает [такие сигналы] либо тактильно, либо органами тела.
Заначит, все эти звуки тоже можно безболезненно [удалить], не потеряв основного качества звукового сигнала, если это, например, было музыкальное произведение. В принципе, этих методов на сегодняшний день существует достаточно много: схемы, которые используются в цифровом звуке, форматах MP3, маскировка чистого тона шумом и т. д. и т. д.
Для краткой иллюстрации [того], что это такое: после процедур преобразования цифровой модели аналогового звука, которую мы видим в форматах wave или AIFF, к формату MP3 — после того, как произведены вот эти процедуры (маскирование, удаление тех звуков, которые не могут быть восприняты человеком) — звук на промежуточной стадии не очень комфортен для прослушивания, он носит на себе отпечаток купирования, слух человека, особенно музыканта, может ощущать дискомфорт, поэтому, чтобы спрятать огрехи на последней стадии, в цифровые форматы «подмешивается» шумовой сигнал низкого амплитудного уровня.
Это делается специальным алгоритмом. В принципе, можно проиллюстрировать это таким примером: если вы находитесь в какой-то комнате и в соседней комнате кто-то разговаривает, и вам это мешает, включите пылесос. Шум пылесоса является более низкочастотным сигналом по отношению к речи человека, а низкочастотные сигналы всегда маскируют высокочастотные сигналы, но не наоборот. Вы перестанете слышать назойливых собеседников. Примерно то же самое происходит и в цифровых форматах, на последней стадии после оцифровки происходит подмешивание шумового сигнала определенной амплитуды, определенного спектрального состава, это может быть разновидность белого шума.
Дмитрий: Хорошо, тогда давайте попробуем поговорить о тех случаях, когда мы можем утверждать, что все-таки что-то теряем, используя MP3 — не всегда он идеален для применения, не всегда он подходит, некоторый класс оборудования может позволить нам что-то большее.
Анатолий: Совершенно правильно, MP3, как формат для компактного хранения аудиоданных в компьютерной технике и как один из самых старых форматов, потихонечку, с течением времени, стал терять популярность. Почему? Ну [прежде всего], компьютерная техника увеличила свою производительность и объемы памяти, [а это значит, что] потребность в сжатии, купировании звуковых данных исчезла, нет такой напряженности — памяти у нас сейчас на современных компьютерах достаточно, производительность процессоров достаточна, поэтому мы можем слушать не сжатый цифровой звук.
Какие были предприняты в свое время шаги ухода от компактного ранения музыки? Прежде всего, появились конкурирующие форматы для сжатого хранения звука. Те, кто пользуются компьютерами компании Apple и планшетными компьютерами, смартфонами, айфонами, они знают, в каком формате продается музыка в Apple Store [iTunes] — если я не ошибаюсь, это MP4, да?
Дмитрий: Да.
Анатолий: Кто-то скажет, что это тоже цифровой звук и тоже сжатый и что у него [также] есть недостатки. Ну да. Только он появился позже, чем MP3, работы по этому формату начались в где-то в 1997 году, то есть почти на 3–4 года позже [создания] MP3, значит, те разработчики, которые разрабатывали эту систему кодирования сжатого звука, учли проблемы и недостатки, которые были в предыдущих форматах, усовершенствовали [продукт].
К чему я привожу эти примеры: цифровой звук, возникнув на определенном этапе, при появлении компьютерных устройств прошел определенную эволюцию, эволюционировали форматы как несжатого хранения звуковых данных, так и форматы [хранения] сжатого звука. Современный способ кодирования звука в форматах MP3 или аналогичных достаточно совершенен.
Получив популярность на определенном этапе, сейчас [формат] фактически зафиксировался на определенной группе устройств: прежде всего на портативной технике мобильной связи — смартфонах, телефонах, плеерах и т. д. В силу малых габаритов, небольшой мощности, невысоких возможностей динамиков, встроенных в смартфоны, он органично вписался в эту структуру. Если говорить об аппаратуре серьезной, для домашнего прослушивания, в частности, Hi-Fi аппаратуре, то здесь, конечно, не всякий взыскательный слушатель согласится с тем, что цифровые форматы хранения аудиоданных в сжатой форме годятся.
Для тех, кто не приемлет цифровые форматы хранения данных в сжатой форме, у Аудиомании есть аналоговые решения. На фото — фрагмент инсталляции от Аудиомании
Наши материалы по теме:
Продолжить наш разговор, наверное, уместно с характеристики аудиоинтерфейcа современного компьютера, который является основой для современного цифрового звука. Дальше, по ходу беседы станет понятно, каким образом это [относится] к теме нашего разговора, к аудиоаппаратуре высокого класса, например. Итак, современная аудиокарта персонального компьютера или ноутбука имеет несколько характеристик, которые как раз целиком описывают возможности этого компьютера по части хранения или воспроизведения цифрового звука. Что я имею в виду? Частоты, на которых работает аудиокарта и разрядность этой аудиокарты. Наверное, пользователю знакомы такие цифры как 16 бит и 44 кГц.
Дмитрий: Конечно.
Анатолий: Это базовые характеристики любого аудиотракта современного компьютера, будь он настольный или портативный. Такие же характеристики (то есть разрядность процессоров) имеют и стандартные проигрыватели компакт-дисков. Не вдаваясь в подробности, следует сказать, что этот стандарт появился давно. Разрабатывали стандарт хранения аудиоданных такого рода (16 бит и 44 кГц) производители бытовой аудиоаппаратуры, которая у нас у всех очень популярна — Phillips, Sony, Toshiba. По мере развития компьютерной техники аудиокарты приобретали дополнительные возможности, в частности, увеличился ряд частот, на которых может работать аудиокарта — 48 кГц, 96 кГц, 192 кГЦ, разрядность процессора, который установлен на аудиокарте, тоже увеличилась — 16 бит, 24 бита…
Дмитрий: 32…
Анатолий: И сейчас 32. Если говорить профессиональным языком, то частота 44 кГц это та необходимая частота, которая позволяет сохранить волновую форму звукового сигнала, например, музыкального произведения или голоса человека. Откуда возникло это число и почему аудиокарта должна работать на этой частоте? Был такой математик Котельников, который своей теоремой доказал эту границу технического устройства, которая позволяет оцифровать сигнал с достаточно высоким качеством.
Уместно привести такой пример: простейший звук, например, звук свирели и детской дудочки…форма его звукового сигнала похожа на синусоиду, скажем так. Что же такое 44 кГц? Это частота работы аудиокарты. Такой сигнал, попав в аудиокарту, будет разрезан моментально на 44 тысячи вертикальных полоcочек. Что мы получим в результате этой разрезки? Мы получим значение громкости сигнала в каждой точке времени — одной сорока четырех тысячной секунды.
Дмитрий: И теперь нам нужно все эти полоски зашифровать.
Анатолий: Теперь нам эти полоски нужно зашифровать и сохранить в компьютере. Как мы можем [их] зашифровать? Можно запомнить значение громкости в каждой полосочке. Ну вот здесь как раз уже и играет значение другая характеристика аудиокарты — ее разрядность. В частности, 16 бит. Что такое 16 бит? Компьютерщики говорят так: два в шестнадцатой степени.
Дмитрий: Так.
Анатолий: Какое это число, 65 тысяч с копейками? Получается, что я могу использовать число от нуля до 65 536, если говорить точно, чтобы выразить высоту вот этой самой полосочки. Это будет какое-то число. В одном случае это будет 60 тысяч, в другом случае — 30 тысяч и т. д. [Значит], в данном случае мы за секунду времени получим таблицу, которая будет содержать 44 тысячи цифр, каждая из которых будет выражаться числом от нуля до 65 536. Вот эта таблица и будет являться несжатым звуковым файлом.
Дмитрий: Теперь мы работаем с этой таблицей дальше…
Анатолий: Что мы здесь видим? Что, если бы скорость работы аудиокарты была выше, [тогда], наверное, мы получили бы гораздо большее количество этих цифр, которое более точно описывало бы наш сигнал. Естественно, стремление разработчиков и производителей — приблизиться к истинной форме сигнала. Вот отсюда [происходит] стремление конструкторов техники увеличивать частоты. Год от года, так сказать, от одного класса устройств, к другому и т. д.
Это развитие привело к тому, что [начиная] с частоты 44 кГц потихоньку эти частоты увеличивались. Я применил неудачное слово «потихонечку», потому что на самом деле развитие было гораздо сложнее, использовались все частоты: и 32 кГц, и 24 кГц. Слушатель или кто-то любопытный может спросить: «А где эти частоты используются?» потому что явно, что звук [при использовании частот ниже 44кГц] будет грубее. Например, при передаче телесигналов в телефонной технике. Там нет необходимости очень точно описывать сигнал, а вот при передаче сложного музыкального сигнала, какой-то концертной партии, как оказалось, 44 кГц не удовлетворяют требованиям взыскательного слуха. Поэтому частотные характеристики карт неизменно, из поколения в поколение, увеличивались.
Чтобы закончить разговор на эту тему и не вдаваться в подробности, пожалуй, стоит привести такой пример — рождение HD-аудио, это был 2004 год, компания Intel разработала как раз в этот год спецификации HD-аудио, которые заключаются в следующих двух значениях: 32 бита и 192 кГц. Значит, после того, как были разработаны спецификации HD-аудио…что такое HD, как мы его расшифруем?
Дмитрий: High definition. Высокое разрешение.
Анатолий: Высокое разрешение, то есть это аудио высокого разрешения. Такой стандарт уже может быть базовым для очень качественной аудиоаппаратуры, для источников сигнала, которые, например, будут конкурировать, не побоюсь этого слова, с винилом. Чем закончилась история разработки HD аудио? Intel передал свои разработки трем компаниям-производителям интерфейсов, а потом, на основе этих интерфейсов, компании, которые производят аудиокодеки уже для конкретных технических устройств, начиная с Realtek и заканчивая Wolfson, разработали кодеки, каждый для своих цифровых процессоров.