История синтеза речи: эпоха электрических решений

В прошлый раз мы рассказывали о механических устройствах для синтеза речи — голосовом тракте Кемпелена и «говорящей голове» Иосифа Фабера. На очереди электрические синтезаторы XX века.

ax9sthvrvprryuczi1mwszv3eks.jpeg
Фото Rock’n Roll Monkey / Unsplash

Первые электрические установки


В 1850 году немецкий физик и врач-физиолог Герман фон Гельмгольц представил свою резонаторную теорию. Он заметил, что у гласных звуков разные резонансные частоты (форманты). Эти форманты образуются при прохождении звуковой волны от голосовых связок к губам. Некоторые волны отражаются от губ говорящего и идут к реципиенту, а часть — возвращается к источнику. Ученый предположил, что голосовой тракт человека можно представить как последовательность резонаторов.

В начале XX века начались попытки реализовать такую модель на основе электрических компонентов. Первый синтезатор такого типа разработал физик Джон Стюарт. Его схема (опубликованная в журнале Nature), включала в себя электрический зуммер для моделирования связок и пару индуктивно-емкостных резонаторов. Они эмулировали физические процессы, происходящие со звуком в горле.

804kbxu75o4kuiflb3lyzxhjvaq.png

Схема синтезатора, разработанного Джоном Стюартом

Устройство Стюарта могло издавать звуки, состоящие из двух формант. Это — несколько простых гласных, а также дифтонги. Но на этом его возможности заканчивались.

Первый электрический синтезатор, способный воспроизводить речь появился позже — в 1930 годах. Его разработал Гомер Дадли (Homer Dudley) из Bell Laboratories. В то время компания работала над вокодером — инструментом для сжатия речи и экономии частотных ресурсов радиолинии в телефонных сетях. Идея заключалась в том, чтобы вместо голоса абонента передавать его ключевые параметры. На принимающей стороне устанавливался специальный декодер, который по этим параметрам реконструировал и воспроизводил звук. Дадли понял, что с небольшими модификациями вокодер можно превратить в полноценный синтезатор. Так появилась система VODER — Voice Operating Demonstrator.

Устройство представили широкой публике на нью-йоркской всемирной выставке в 1939 году. В конструкцию VODER входили два источника звука: ламповый генератор шума для «глухих» фонем, и осциллятор — для «звонких». Также имелись десять параллельно соединенных полосовых фильтров — они составляли блок управления резонансами. Оператор руководил системой с помощью ручной клавиатуры, браслета на запястье и ножной педали.

Во время демонстраций аппарат говорил на разных языках, пел и отвечал на вопросы с различными интонациями. Но чтобы раскрыть потенциал системы, её оператору требовались годы тренировок.


Вскоре после премьеры VODER началась Вторая мировая война, и Bell Labs пришлось свернуть дальнейшую разработку синтезатора. Однако знания, полученные во время работы над проектом, Гомер Дадли использовал для создания технологии шифрования телефонных разговоров.

Синтезаторы речи на спектрограммах


В 1946 году был изобретен акустический спектрограф. И возникла идея — использовать спектрограммы для управления речевыми синтезаторами. Одним из первых такое устройство представил Л. Шотт (L. Schott), американский инженер из Bell Labs. Он использовал линейный источник света, просвечивающий спектрографические шаблоны с разной степенью прозрачности. Специальные фотоэлементы, установленные напротив лампы, регистрировали изменения уровня освещенности и генерировали управляющие сигналы для полосовых фильтров. Точно такие же фильтры использовал Гомер Дадли для своего VODER.

Фото 120years.net
5zfje6xxy_gtud0dkkhak92bzdi.gifДругую разработку в этой области представила группа американских ученых во главе с физиком Франклином Купером (Franklin Cooper). Их оптическая система — Pattern Playback — модулировала гармоники основного тона 120 Гц, считывая изображения на движущейся прозрачной ленте. Визуальная информация передавалась осциллятору, превращавшему её в звук.

В каком-то смысле система напоминала советские оптические синтезаторы — «Нивотон» и «Вариофон» — на которых писали музыку для мультфильмов. Однако Pattern Playback был изначально «заточен» под генерацию человеческой речи и умел воспроизводить целые предложения.


Устройства, подобные Pattern Playback и VODER, построили теоретический фундамент для проектирования формантных и артикуляционных синтезаторов. Они стали прототипом современного компьютерного синтеза. О них мы расскажем в следующий раз.
Материалы по теме из нашего «Мира Hi-Fi»:

1osf72wkwrjhzpl2bwl5hcmwnbq.pngИстория аудиотехнологий: синтезаторы и сэмплеры
1osf72wkwrjhzpl2bwl5hcmwnbq.pngТраутониум: немецкая волна в истории синтезаторов
1osf72wkwrjhzpl2bwl5hcmwnbq.pngМузыка из бумаги и картона: краткая история вариофона и «рисованного звука»
1osf72wkwrjhzpl2bwl5hcmwnbq.png«Машинный звук»: синтезаторы на базе нейросетей
1osf72wkwrjhzpl2bwl5hcmwnbq.pngЗвук на проволоке: история телеграфона

© Habrahabr.ru