Как синтез речи появился на ПК16.03.2020 19:18

В прошлый раз мы рассказали о цифровых синтезаторах речи и вспомнили, как в 1974 году Дональд Шерман (Donald Sherman), страдающий от паралича мышц лица, впервые использовал компьютер с системой Text-to-Speech, чтобы заказать пиццу по телефону. Тогда синтезатор работал на мейнфрейме, установленном в лаборатории Мичиганского государственного университета. Но с развитием технологий и появлением персональных компьютеров, TTS-решения стали мобильнее.

Расскажем о некоторых ранних разработках того времени.

Фото Springsgrace / CC BY-SA

Синтезатор DECtalk

В 1981 году профессор Деннис Клатт (Dennis Klatt) из MIT связался с Digital Equipment Corporation, чтобы обсудить перспективы разрабатываемого им алгоритма для конкатенативного синтеза речи. Такая система соединяет в цепочку заранее записанные сегменты естественной речи. Представители компании увидели потенциал в наработках Клатта и решили использовать их, чтобы выпустить на рынок собственный голосовой синтезатор. Разработка велась три года, за которые проект успел дважды сменить название — с KLATTALK на CLATTER и, наконец, на DECtalk.

Релиз состоялся в 1984 году — корпус девайса был немногим больше кота. Устройство подключалось к любой вычислительной системе с асинхронным последовательным портом (COM-порт), а его поздние версии — к шине ISA. Также оно имело разъёмы для соединения с телефонной линией.

Эта особенность позволяла автоматизировать работу со входящими и исходящими звонками. Машина умела говорить девятью голосами: четырьмя мужскими, четырьмя женскими и одним детским. Каждый из голосов пользователь мог донастроить самостоятельно — изменить высоту звука и модифицировать передаточную функцию головы (стр. 61). Более того, система позволяла корректировать произношение слов. Благодаря этой особенности её можно было научить петь.

[embedded content]

Как и установка из Мичиганского государственного университета, DECtalk нашла применение в качестве «речевого протеза». Решение DEC было установлено в кресле известного астрофизика Стивена Хокинга вплоть до 2018 года. Тогда команда инженеров из Кембриджа заменила «ретрочип» на Raspberry Pi, но сохранила звук и интонации, генерируемые старым синтезатором, — так как ученый к ним привык.

В 90-х в компании DEC решили продать лицензию на технологию разработчиками сторонних аудиоустройств. Например, чип DECtalk стал частью звуковой карты Sound Blaster AWE32 (о реплике её прародителя мы писали у себя в блоге). В комплекте шло специализированное ПО TextAssist.

DECtalk стал довольно успешным продуктом. Однако по ряду причин Digital Equipment Corporation передали права на эту торговую марку компании Force Computers. Та, в свою очередь, перепродала её Fonix Speech, которая сегодня известна как SpeechFX. Она до сих пор предлагает синтезаторы речи на базе DECtalk для встраиваемых устройств.

S.A. M. — Software Automatic Mouth

В 1982 году разработчик Марк Бартон (Mark Barton) выпустил S.A. M. Это — один из первых коммерческих программных синтезаторов речи для 8-битных вычислительных систем: Atari 8-bit, Commodore 64 и Apple II.

В первом случае S.A. M использовал встроенный аудиочип POKEY. Его возможности позволяли создавать полифоническую музыку и эффекты в играх. И его реализация до сих пор используется в ряде эмуляторов, например MAME. В случае с Commodore 64 была задействована встроенная SID-схема с 4-битным ЦАП, что отрицательно сказалось на качестве воспроизведения речи.

Фото Federica Galli / Unsplash

Что касается версии для Apple II, то синтезатор работал со стандартной расширительной платой и 8-битным цифро-аналоговым преобразователем. Позже S.A. M. появился и на первом компьютере Macintosh. Стив Джобс лично настоял на том, чтобы программа вошла в раннюю версию Mac OS. Компания заключила партнерское соглашение с Бартоном, и его разработка, сменив название на MacInTalk, стала частью экосистемы «яблочной корпорации».

Новинку сразу включили в презентацию компьютера в 1984 году. Машина самостоятельно представила себя на сцене, начав с фразы: «Hello. I«m Macintosh».

Полная речь Macintosh

«Привет, я Macintosh. Как же хорошо выбраться из этой сумки.

Я не привык к публичным выступлениям, но хотел бы поделиться с вами мыслью, которая впервые пришла мне, когда я увидел мейнфрейм IBM: «Не доверяйте компьютеру, который не можете поднять».

Я бы мог говорить и дальше, но предпочту посидеть и послушать. С гордостью представляю вам человека, который стал для меня отцом… Стива Джобса».

[embedded content]

 Сегодня S.A. M. почти нигде не используется и служит историческим наследием — в сети можно найти веб-версию синтезатора (и код на GitHub). Хотя в 2017 году инди-разработчики из Airdorf Games использовали инструмент для озвучивания персонажей в компьютерной хоррор-игре Faith.

Разумеется, это не все — лишь одни из первых — синтезаторы речи для ПК, выпущенные на рубеже веков. Но они проложили дорогу современным решениям, которые звучат более реалистично. Об используемых в них технологиях мы продолжим рассказывать в следующем материале.

Дополнительное чтение из нашего корпоративного блога «Мир Hi-Fi»:

«Машинный звук»: синтезаторы на базе нейросетей
История аудиотехнологий: синтезаторы и сэмплеры
Как устроен Sporth — ЯП для музыкальных live-сессий
Траутониум: немецкая волна в истории синтезаторов
Где взять аудиосемплы для ваших проектов: девять тематических ресурсов