Оставайтесь на линии: как создать идеального голосового помощника24.06.2021 19:48

Пользователям с каждым днем становится все сложнее отличить голосовых роботов от реальных людей: многие спорят с ботами, пытаются научить их правильно выполнять свою работу и даже заигрывают с ними — все как у людей. Как же создается тонкая душевная организация этих невидимых помощников, способная запутать даже самого продвинутого пользователя — предлагаем разобраться вместе.

Развитие искусственного интеллекта можно сравнить с процессом познания окружающего мира человеком. Так, с момента рождения мы начинаем воспринимать визуальные, аудиальные и другие образы так же, как бот воспринимает информацию через свои «уши» или технологии распознавания речи. Следующим шагом становится изучение слов и самостоятельное формирование фраз и предложений для общения. Бот на лету схватывает все, чему его учат. За это отвечает его «мозг» и дизайнеры голосовых интерфейсов, которые составляют словари для робота. Чтобы озвучить сформированные мысли, человек использует язык, а бот — синтез речи.

Безусловно, существует множество различных дополнительных сервисов, которые могут максимально приблизить поведение и звучание бота к человеческому. Но для начала рассмотрим те, без которых бот не сможет связать ни слова.

Одним из основных этапов на пути к полноценной речи бота является распознавание речи. Это многоуровневый процесс восстановления сказанного по акустическим сигналам. Система структурирует полученный результат в слова, фразы и отдельные предложения и преобразует в текстовый формат.

Первый этап — анализ сигнала. Компьютер отправляет полученный запрос на сервер, где он проходит очистку от помех и посторонних шумов. После чего запись сжимается и делится на фрагменты, длина каждого — 25 миллисекунд. Полученные фрагменты пропускаются через акустическую модель — карту голоса по отношению к напечатанным словам, которая создается путем сравнения произнесенного звука с текстом сказанных слов. Эта модель и определяет, какие именно звуки были произнесены, для последующего распознавания.

Второй этап — это распознавание сигнала. В акустической модели хранятся эталонные звуки, с которыми и сравниваются буквы, слоги и слова. С помощью машинного обучения система подбирает варианты произнесенных слов и их контекст, а также собирает из звуков предполагаемые слова.

Заключительным этапом распознавания является преобразование сигнала в текст. На данном этапе система определяет верный порядок слов, основываясь на языковые модели, и подбирает нераспознанные слова по смыслу. Эта информация поступает в декодер, где аудиоданные преобразуются в текст.