Оставайтесь на линии: как создать идеального голосового помощника
Развитие искусственного интеллекта можно сравнить с процессом познания окружающего мира человеком. Так, с момента рождения мы начинаем воспринимать визуальные, аудиальные и другие образы так же, как бот воспринимает информацию через свои «уши» или технологии распознавания речи. Следующим шагом становится изучение слов и самостоятельное формирование фраз и предложений для общения. Бот на лету схватывает все, чему его учат. За это отвечает его «мозг» и дизайнеры голосовых интерфейсов, которые составляют словари для робота. Чтобы озвучить сформированные мысли, человек использует язык, а бот — синтез речи.
Безусловно, существует множество различных дополнительных сервисов, которые могут максимально приблизить поведение и звучание бота к человеческому. Но для начала рассмотрим те, без которых бот не сможет связать ни слова.
Одним из основных этапов на пути к полноценной речи бота является распознавание речи. Это многоуровневый процесс восстановления сказанного по акустическим сигналам. Система структурирует полученный результат в слова, фразы и отдельные предложения и преобразует в текстовый формат.
Первый этап — анализ сигнала. Компьютер отправляет полученный запрос на сервер, где он проходит очистку от помех и посторонних шумов. После чего запись сжимается и делится на фрагменты, длина каждого — 25 миллисекунд. Полученные фрагменты пропускаются через акустическую модель — карту голоса по отношению к напечатанным словам, которая создается путем сравнения произнесенного звука с текстом сказанных слов. Эта модель и определяет, какие именно звуки были произнесены, для последующего распознавания.
Второй этап — это распознавание сигнала. В акустической модели хранятся эталонные звуки, с которыми и сравниваются буквы, слоги и слова. С помощью машинного обучения система подбирает варианты произнесенных слов и их контекст, а также собирает из звуков предполагаемые слова.
Заключительным этапом распознавания является преобразование сигнала в текст. На данном этапе система определяет верный порядок слов, основываясь на языковые модели, и подбирает нераспознанные слова по смыслу. Эта информация поступает в декодер, где аудиоданные преобразуются в текст.