Как устроен искусственный интеллект: распознавание речи

Каждый из нас сталкивается с таким загадочным явлением, как искусственный интеллект, в повседневной жизни — именно он позволяет голосовым помощникам и поисковым системам распознавать человеческую речь и угадывать желания пользователей. Сегодня мы расскажем о том, как именно устроена эта технология и какие перспективы ждут эту сферу разработок в ближайшее время.
b278292e8606a6a6ea687b2f1de56749_cropped
Василий Макаров
18 октября 2017 16:01

Обсудить 0

Искусственный интеллект — это очень обширный термин, в рамках которого уже существуют и еще находятся в стадии разработки множество алгоритмов, предназначенных для выполнения широчайшего спектра практических задач. Но что на самом деле умеют современные программы искусственного интеллекта, и какими принципами они руководствуются во время работы? Сегодня мы поговорим про одну из ключевых особенностей машинного разума, с которой каждый из нас регулярно сталкивается в повседневности — способностью голосовых помощников распознавать человеческую речь.

Распознавание голоса

Для измерения голоса программа использует ряд звуковых параметров: частоту и длину звуковой волны в определенный момент времени. К примеру, когда вы общаетесь с популярным голосовым помощником Alexa, ПО разбивает ваш голос на 25-миллисекундные слайды, а потом преобразует каждый из отрезков в цифровые сигнатуры. После этого сигнатурные блоки сравниваются с внутренним каталогом звуков программы, пока количество совпадений не будет достаточно высоким, чтобы ИИ «перевел» цифры в понятный ему буквенный запрос.

Языковая модель

Понаблюдайте за экраном телефона во время использования Siri или Google Assistant, и вы увидите, что набор слов изменяется в процессе того, как вы произносите слова. Происходит это из-за того, что программное обеспечение с каждым следующим «шагом» тоже сравнивает полученный результат с внутренней базой данных и выстраивает слова в зависимости от совпадений. По словам Рохита Прасада, главного ученого подразделения Alexa, которое принадлежит Amazon, «языковая модель обучается многим миллиардам слов в форме текста». Порядок слов тоже играет немаловажную роль: это можно заметить и с помощью обычной поисковой системы Google, которая порой выдает разные данные по идентичным запросам, в которых переставлена местами всего лишь пара слов.

Перспективы распознавания речи

Алан Блэк из Институт языковых технологий имени Карнеги рассуждает о том, что для всех специалистов из крупных компаний наиболее интересным является поиск предела возможностей их собственной системы. «Когда программа говорит «Я не могу этого сделать», вот тогда ситуация становится по‑настоящему интересной», шутит он. Впрочем, это ив самом деле так: реагирование на непредсказуемые запросы пользователя даже является одной из основных задач, которую исследуют студенческие кружки, которые борются за премию Alexa Prize —, а это целых 2,5 миллиона долларов. Их задача состоит в том, чтобы создать чат-бота, предназначенного для общения с людьми, задающими последовательные и осмысленные вопросы. Информация в данном случае обновляется раз в 20 минут. Звучит как довольно простая задача даже для рядового программиста, но на практике общение программы с живыми людьми всегда сопряжено с отступлениями от темы диалога, спонтанными фразами и прочими нарушениями. Программа, которая научится работать с ними так же хорошо, как реальный человек, станет огромным прорывом для всей индустрии ИИ.

©  Популярная Механика