История синтезаторов речи: компьютерная эра14.03.2020 22:47

Ранее мы рассказали о том, как появились речевые синтезаторы — поговорили о первых механических и электрических установках. Продолжаем обсуждение тем, что было в эпоху мейнфреймов.

Фото Kate Ter Haar / CC BY

Гибридные компьютерные системы

Считается, что первая компьютерная система для синтеза речи появилась в Японии. Её разработала команда специалистов из Электротехнической лаборатории (ETL), которую Министерство связи основало еще в XIX веке. В 1956 году её сотрудники представили транзисторный компьютер ETL Mark III — одну из первых вычислительных систем со встроенной памятью. Найти более подходящее место для разработки синтезатора речи на территории страны было сложно.

Свою работу в 1963 году инженеры начали с построения полимерной модели человеческого голосового тракта. На протяжении двух лет специалисты изучали происходящие в нем физические процессы — особое внимание они уделили роли носа в окраске речи. Собрав необходимые данные, они обратились к коллегам из Hitachi, которые помогли спроектировать аналоговый компьютер на основе лестничной логики. Он включал 71 операционный усилитель и 22 множителя, представлявшие собой резисторные сети с фотопроводниками и неоновыми лампами. Система подключалась к IBM 7090 с управляющим программным обеспечением на Fortran.

Первое время синтезатор умел говорить только на японском. Но в 1967 году его адаптировали для работы с английским языком. Словарь машины включал полторы тысячи слов — этого было достаточно, чтобы читать детские сказки. Однако устройство все равно оставалось частично аналоговым —, но ситуация изменилась довольно быстро.

Цифровые синтезаторы

Глава акустического отделения лаборатории ETL Эиичи Мацуи (Eiichi Matsui) в конце 60-х взял наработки своих коллег и спроектировал полностью цифровой синтезатор речи для компьютера IBM S/360. Для моделирования характеристик голосового тракта он использовал преобразование Фурье. Каждая секунда синтезированной речи требовала 20 секунд ее предварительной обработки. Но несмотря на этот недостаток, проект привлек внимание международного научного сообщества.

Исследования в этой области начали вести специалисты из Нагойского университета, также расположенного в Японии. Один из ученых вуза предложил новый метод речевого синтеза — линейное предсказание. Он учитывает несколько меняющихся во времени параметров: период основного тона, среднюю громкость и коэффициенты, связанные с передаточной функцией речевого тракта.

Подобные синтезаторы вычисляли необходимые параметры по оцифрованной речи, записывали их в память, а затем воспроизводили звуковые волны с помощью ЦАП. Система не требовала больших вычислительных мощностей, поэтому метод линейного предсказания быстро нашел применение во множестве систем распознавания речи.

Одну из них запустили в Лаборатории искусственных языков открытой при Мичиганском государственном университете США. Устройство получило название Votrax и стало одним из первых полнофункциональных «голосовых протезов» в мире. В декабре 1974 года Дональд Шерман (Donald Sherman), у которого диагностировали синдром Мёбиуса (паралич мышц лица), использовал его для заказа пиццы по телефону.
Беседа прошла не самым гладким образом — сотрудники пиццерии не знали, как реагировать на «робота». Синтез занимал время, и речь компьютера иногда перебивала собеседника. Поэтому в ходе первых нескольких попыток звонки Дональда сбрасывали. Но в итоге ему удалось объяснить, что он использует электронное устройство для коммуникации, и его заказ приняли.

[embedded content]

В 1976 году американский изобретатель Рэймонд Курцвейл (Raymond Kurzweil) представил миру свою «читающую машину». Коробка размером с напольный офисный принтер сканировала документы, распознавала их, и читала вслух. В том же году вышел «говорящий» калькулятор — LPC Speech+. Он был построен на базе первой коммерческой микросхемы со встроенным голосовым синтезатором.

Еще два года спустя Texas Instruments выпустили Speak & Spell — детскую образовательную игрушку со встроенным речевым синтезатором. В память устройства было заложено 200 слов, которые дети часто неправильно произносят. Ребенок вводил слово на клавиатуре, а игрушка воспроизводила его. Продукт стал абсолютным хитом — его даже использовали музыканты в своих проектах. Голос Speak&Spell можно услышать на альбоме «Computer World» группы Kraftwerk.

Speak & Spell, пусть и в обновленном виде, есть на прилавках и сегодня. В каком-то смысле гаджет был первым умным цифровым устройством. Его даже называют «праотцом» персональных компьютеров. Но о том, как системы синтеза речи развивались на ПК, мы расскажем в следующий раз.

Материалы по теме из нашего «Мира Hi-Fi»:

Траутониум: немецкая волна в истории синтезаторов
История аудиотехнологий: синтезаторы и сэмплеры
«Машинный звук»: синтезаторы на базе нейросетей
Как устроен Sporth — ЯП для музыкальных live-сессий
Создатели музыки к компьютерным играм — несколько самых выдающихся имён