[Перевод] Прошлое, настоящее и будущее технологий распознавания речи

image

Голос — это будущее. Мировые технологические гиганты требуют жизненно важной доли рынка, а ComScore прогнозирует, что «до 50% всех поисковых запросов будут выполняться голосом уже к 2020 году».

Однако исторические антецеденты, которые привели нас к этому моменту, столь же важны, как и удивительны. В этом отчете мы отправляемся в путешествие по истории технологии распознавания речи, прежде чем предоставлять всеобъемлющий обзор текущего ландшафта, и даём советы, которые должны учитывать все маркетологи, чтобы подготовиться к будущему.

История технологии распознавания речи


Технология распознавания речи вошла в общественное сознание сравнительно недавно, с блестящими событиями запуска от высокотехнологичных гигантов ведущих мировых трендов.

Наше восхищение является инстинктивным: мы очарованы машинами, которые могут понять нас.

С антропологической точки зрения, мы разработали произносимое слово задолго до его письменного аналога, и мы можем говорить по 150 слов в минуту, по сравнению с ничтожными 40 словами, которые среднестатистический человек может написать за 60 секунд.

Фактически, общение с технологическими устройствами с помощью голоса стало настолько популярным и естественным, что мы оправдано задаемся вопросом, почему самые богатые компании в мире только сейчас начали предоставлять нам эти услуги.

История технологии показывает, что распознавание речи далеко не новая озабоченность, даже если темпы развития не всегда соответствовали уровню интереса к этой теме. Как мы видим впоследствии, крупные прорывы, относящиеся к XVIII веку, обеспечили платформу для цифровых помощников, о которых мы все сегодня знаем.

Самые ранние достижения в распознавании речи были сосредоточены главным образом на создании гласных звуков в качестве основы системы, которая могла бы также научиться интерпретировать фонемы (строительные блоки речи) от контактирующих собеседников.

Этим изобретателям мешал технологический контекст, в котором они жили, причем в их распоряжении были только основные средства для создания говорящей машины. Тем не менее, они обеспечили важную предсоставную более поздних инноваций.

Диктофоны, впервые созданные Томасом Эдисоном в конце 19-го века, были способны записывать речь и стали популярными среди врачей и секретарей, которые ежедневно делали большое количество записей.

Однако только в 1950-х годах эта линия исследований привела к подлинному распознаванию голоса. До сих пор мы видим попытки создания и записи речи, но еще не интерпретации.

Одри, машина, созданная Bell Labs, могла понять цифры от0-до-9 с точностью до 90%. Интересно, что этот уровень точности регистрировался только тогда, когда говорил ее изобретатель;, но только от 70% до 80%, когда с Одри говорили другие люди.

image

Это указывает на некоторые из постоянных проблем распознавания речи; у каждого человека свой голос, а разговорный язык может быть очень непоследовательным. В отличие от текста, который имеет гораздо более высокий уровень стандартизации, устное слово сильно варьируется в зависимости от региональных диалектов, скорости, акцента, даже социального класса и пола. Поэтому масштабирование любой системы распознавания речи всегда было значительным препятствием.

Александр Вайбель, который работал в Гарпи, разработал машину в Университете Карнеги-Меллона, которая могла понять более 1000 слов, построенных по этому принципу:

«Итак, у вас есть такие вещи, как 'Покалечилась', которая может быть 'Пока лечилась'. Или, если вы скажете 'Несуразные вещи', его можно понять как 'Несу разные вещи'.»

До 1990-х годов даже самые передовые системы были основаны на сопоставлении шаблонов, где звуковые волны были переведены в набор чисел и сохранены. Затем они будут срабатывать, когда в аппарате прозвучит одинаковый звук. Конечно, это означало, что нужно было говорить очень четко, медленно и в условиях без фонового шума, чтобы иметь хорошие шансы на распознавание звуков.

IBM Tangora, выпущенная в середине 1980-х годов и названная в честь Альберта Тангора, стала самой быстрой машинисткой в мире, и могла приспособиться к голосу говорящего. Это по-прежнему требовало медленной, четкой речи и отсутствия фонового шума, но использование скрытых моделей Маркова позволило повысить гибкость благодаря кластеризации данных и предсказанию будущих фонем на основе предыдущих паттернов.

Хотя для каждого пользователя потребовалось 20 минут обучения (в форме записанной речи), Тангора могла распознать до 20 000 английских слов и несколько полных предложений.

image

Посеянные тогда семена технологии распознавания голоса — одно из самых значительных и важных событий в этой области. Бытовало убеждение, что распознавание речи может быть достигнуто только лишь путем адаптации к уникальному способу общения каждого человека, но достигнуть этого прорыва было очень нелегко.

Только в 1997 году был выпущен первый в мире «непрерывный распознаватель речи» (т. Е. Больше не приходилось делать паузу между каждым словом) в виде программного обеспечения Dragon’s NaturallySpeaking. Способный понимать 100 слов в минуту, он все еще используется сегодня (хотя и в обновленной форме) и пользуется спросом у врачей.


Машинное обучение (Machine learning), как и во многих областях научных открытий, обеспечило большинство прорывов распознавания речи в этом столетии. Google объединил новейшие технологии с мощью облачных вычислений для обмена данными и повышения точности алгоритмов машинного обучения.

Это привело к запуску приложения Google Voice Search для iPhone в 2008 году


Благодаря большому объему данных для обучения, приложение Voice Search продемонстрировало замечательные улучшения точности в сравнении с предыдущими технологиями распознавания речи. Google ввёл элементы персонализации в свои результаты голосового поиска, и использовал эти данные для разработки своего алгоритма Hummingbird, получая гораздо более тонкое понимание используемого языка. Эти нити были связаны в Google Assistant, который сейчас имеется почти на 50% всех смартфонов.

Это был Siri, выпущенный Apple на рынок распознавания голоса, который впервые захватил воображение публики. В результате многолетних исследований этот цифровой помощник с АI привёл человечество в мир распознавания речи.

image

После Сири Microsoft запустила Cortana, Amazon запустила Alexa, и шестеренки были приведены в движение. Идет битва за превосходство среди хайтек гигантов за самую продвинутую платформу распознавания голоса.

По сути, мы потратили сотни лет на обучение машин, чтобы завершить путешествие, которое занимает среднего человека всего несколько лет. Начиная с фонемы и создавая отдельные слова, затем фразы и, наконец, предложения, машины теперь могут понимать речь с точностью до 100%.

Методы, используемые для совершения этих скачков вперед, стали изощреннее в той мере, в которой они теперь свободно сумулируют принципы, основанные на схемах работы человеческого мозга. Компьютеры на базе облачных вычислений вошли в миллионы домов и могут контролироваться голосом, даже предлагая интерактивные ответы на широкий спектр запросов.

Это путешествие по-прежнему не завершено, но мы продвинулись довольно далеко от компьютеров размером с комнату, начиная от 1950-х годов.

Сфера распознавания речи сегодня


Смартфоны изначально были единственным местом обитания для цифровых помощников, таких как Siri и Cortana, но эта концепция была децентрализована за последние несколько лет.

В настоящее время основное внимание уделяется главным образом голосоактивируемым домашним приложениям, но это, по сути, стратегия троянских коней. Захватывая главенствующее место в доме потребителя, эти системы являются воротами для распространения умных (следящих) устройств, которые можно классифицировать под широким понятием «Интернет вещей». Google Home или Amazon Echo уже могут использоваться для управления широким набором устройств с поддержкой Интернета, и к 2020 году в их список можно будет добавить еще больше изобретений: интеллектуальные холодильники, наушники, зеркала и пожарные системы, а также растущий молниеносно список побочных инноваций.

Недавнее исследование Google показало, что более 50% пользователей поддерживают наличие системы, активируемой голосом в своей гостиной, причем значительное число также сообщает, что у них есть одна в спальне или на кухне.

image

И в этом, собственно и суть; Google (и его конкуренты) хотят, чтобы мы купили более чем одно из этих домашних устройств. А чем более удобны они, тем больше людей будут продолжать использовать их.

Их амбициям в значительной степени помогает тот факт, что технология в настоящее время действительно полезна для выполнения повседневных задач. Спросите Alexa, Siri, Cortana или Google, какая погода будет завтра, и она предоставит вполне внятный, устный отчёт. Устройство по-прежнему несовершенно, но распознавание речи достигло сейчас приемлемого уровня точности для большинства людей, причем все основные платформы сообщают о частоте ошибок менее 5%.

В результате, эти компании стараются «водрузить свой флаг» в наших домах как можно раньше. Аппаратное обеспечение, например, в форме домашней акустической системы, не является чем-то, часто покупаемым большинством. Например, если потребители покупают GoogleHome, то представляется вероятным, что они дополнят это устройствами, поддерживающими Google, вместо того, чтобы покупать у конкурирующей компании и создавать под их крышей несвязанные цифровые экосистемы. Намного легче искать устройства, которые обеспечат стабильность и удобство.

По этой простой причине у Amazon есть смысл продавать Echo Dot всего за $ 29,99. Это эквивалентно краткосрочным финансовым убыткам для Amazon на каждом продаваемом устройстве, но долгосрочная прибыль будет более чем компенсировать это.

По сегодняшним оценкам, уже установлено около 33 миллионов смарт-устройств (отчет Voice Labs, 2017), и как молодые, так и пожилые поколения быстро внедряют эту технологию.

Tech Crunch сообщает, что,

Фактически, демография помощника «суперпользователя», это те, кто проводит в два раза больше времени с персональными помощниками ежемесячно. В среднем, — это 52-летняя женщина, проводящая 1,5 часа в месяц, используя сетевых помощников.

Возможно, самое главное для крупных технологических компаний, это принудить потребителей активнее использовать голосовую связь при покупках через свои устройства.

Google сообщает, что 62% пользователей планируют совершить покупку с использованием голосовой связи в течение следующего месяца, в то время как 58% используют ее для создания еженедельного списка покупок:

image

Краткосрочные выводы о существующих бизнес-стратегиях у Amazon и Google, в частности, относительно прозрачны. Преимуществом первопроходца, похоже, будет рывок на этой арене, тем более что распознавание речи продолжает развиваться в коммуникативные взаимодействия, которые комфортно приводят к покупкам.

Мы уже писали о двух координационных центрах стратегии голосового поиска для высокотехнологичных гигантов: технология должна быть повсеместной, и она должна быть плавной. Голос уже является многоплатформенной экосистемой, но мы, все еще находимся на некотором отдалении от вездесущности, которую она преследует.

Чтобы получить представление о вероятном результате нынешнего конкурса, стоит оценить сильные и слабые стороны четырех ключевых игроков на западных рынках: Amazon, Google, Apple и Microsoft.

image

Amazon


Первоначальное оборудование: Echo, Echo Dot, Echo Show, Fire TV Stick, Kindle.
Цифровой ассистент: Alexa

Статистика использования:

«Десятки миллионов устройств с поддержкой Alexa» проданы по всему миру в течение курортного сезона 2017 года (Amazon) 75% всех смарт-устройств, проданных на сегодняшний день, являются устройствами Amazon (Tech Republic)
Echo Dot был номером один, продающим устройство на Amazon в течение праздников, а Alexa-включен в Fire TV Stick на втором месте. (Amazon)
Средний пользователь Alexa проводит 18 минут в месяц, взаимодействуя с устройством, по сравнению с пятью минутами для Google Home (Gartner)
В настоящее время для Alexa (Amazon) доступно более 25 000 навыков.

Обзор:

Цилиндрическое устройство Echo и его младший брат, Echo Dot, были безудержным прорывом смарт устройств. Подключив системы к ряду популярных сторонних сервисов, Amazon удалось сделать Echo полезным дополнением в миллионах домашних хозяйств.

Как сказал недавно представитель компании Amazon Дейв Лимп, «Мы думаем об этом как о важных вычислениях, которые предоставляет системный доступ, менее нагружающий лично вас, но решающий более обширные задачи».

Ubiquity кажется реальной возможностью, основанной на показателях продаж.
После праздничного сезона, когда Echo Dot стал самым популярным продуктом на Amazon во всем мире, приложение Alexa заняло верхнюю позицию в App Store, опередив конкурирующий продукт Google.

Наследие Amazonа, как интернет-магазина, дает ему встроенное преимущество, когда дело доходит до монетизации технологии. Приобретение Whole Foods добавляет к этому дополнительный вес, с возможностью интегрировать оффлайн и онлайн-миры таким образом, чтобы другие компании завидовали.

Более того, Amazon никогда не зависела от рекламы, чтобы держать цены на акции парящими. Напротив, на самом деле. Следовательно, существует меньше краткосрочного давления, что позволяет перехватить в этом аспекте инициативу и возглавить сферу умных приложений.

С рекламодателями, стремящимися найти настоящую онлайн-альтернативу Google и Facebook, Amazon находится в отличных отношениях реальной капитализации. Но баланс здесь слишком хрупок, удерживаться здесь стоит титанических усилий. Amazon больше всего теряет, с точки зрения доверия и репутации потребителей, поэтому он будет осторожно переходить на рекламу для Alexa.

Компания отрицает, что у нее есть планы это делать, но, как недавно сообщила исследовательская компания L2 Inc, Amazon обратилась к крупным брендам с вопросом о том, готовы ли они заплатить за Amazon’s Choice, обозначение лучших продуктов в определенной категории.

Ожидается увидеть больше попыток от Amazon предоставить что-то, помимо платных объявлений в результатах поиска. Голос требует новых рекламных решений, и Amazon сначала начнет слегка отступать, чтобы гарантировать, что он не нарушит прав Alexa. А недавно объявленное партнерство с издательским гигантом Херстом является признаком будущего сюрприза.

Ключом к успеху Аlexа будет интеграция собственных активов Amazon, а также сторонняя поддержка, которая уже привела к созданию более 25 000 инноваций. С поддержкой, объявленной для новых наушников, часов, холодильников и т. Д., Amazon, похоже, будет оставаться впереди технологии распознавания голоса в течение некоторого времени.

image

Google


Первоначальное оборудование: Google Home, Google Home Mini, Google Home Max, Pixelbook, Pixel smartphones, Pixel Buds, Chromecast, интеллектуальные домашние продукты Nest.

Цифровой помощник: Google Assistant

Статистика использования:

Google Home имеет 24% доли на рынке смартфонов в США (eMarketer)

В Google Home (Google) более 1000 действий

Google Assistant доступен на более чем 225 домашних контрольных брендах и более чем 1500 устройствах (Google)

Наиболее популярными приложениями Google Assistant являются игры, за которыми следуют приложения для домашнего управления (Voicebot.ai)

Обзор:

Google Assistant напрямую привязан к крупнейшей в мире поисковой системе, предоставляя пользователям прямой доступ к самой большой базе данных, которая когда-либо была известна человечеству. Это не плохой репозиторий для работы с цифровым помощником, тем более что Google продолжает совершенствовать свои программы распознавания речи.

Недавние исследования, проведенные компанией Stone Temple Consulting по 5000 запросам, показали, что Google предоставляет самые точные решения на довольно большом расстоянии:

В сочетании с Google Фото, Google Maps, YouTube и рядом других эффективных сервисов Google Assistant не испытывает недостатка в возможностях интеграции.

Возможно, Google не планировал снова выйти на рынок оборудования после того, как в прошлом получил теплый прием для своих продуктов. Однако этот новый рынок побудил поискового гиганта к очень серьезным действиям. На данный момент нет места для ошибок, поэтому Google взял дело в свои руки с помощью смартфонов Pixel, Chromecast и, конечно же, домашних смарт-устройств.

Home Mini был очень популярен, и Google добавила Home Max в коллекцию, которая поставляется по более высокой цене, чем даже Apple HomePod. Все базы обеспечены отличным покрытием.

Google знает, что игровые устройства не являются долгосрочным решением. Это необходимая стратегия для здесь и сейчас, но Google захочет убедить других производителей оборудования интегрировать помощника, точно так же, как и с программным обеспечением для смартфонов Android. Это устранит дорогостоящие издержки производства, но сохранит жизненно важную валюту — внимание потребителей.

Этот план уже запущен, и даже поддержка проанонсирована для ряда интеллектуальных дисплеев:


Это новшество добавляет свежий визуальный элемент для взаимодействия потребителей с интеллектуальными устройствами и, что жизненно важно, дает возможность использовать Google Фото, Hangouts и YouTube.

Google также хочет добавить «более человечный контакт» со своим помощником по AI и нанял команду комиков, дизайнеров видеоигр и экспертов по эмпатии, чтобы придать некоторую индивидуальность продукту.

Google — это, в конце концов, рекламная компания, поэтому следующий проект, несомненно, будет монетизировать эту технологию. На данный момент основная цель — обеспечить лучший, более человеческий опыт, чем конкуренция, и заполучить существенную территорию в большем количестве домашних хозяйств. Поисковый гигант, несомненно, найдет новые способы заработать деньги на этой ситуации.

Хотя он и был медленнее, чем Amazon, но новая реклама Google и растущий ассортимент продуктов означают, что он по-прежнему является серьезным соперником как в краткосрочной, так и в долгосрочной перспективе.

image

Apple


Оборудование: Apple HomePod (из-за запуска в 2018 году по цене $ 349), iPhone, MacBooks, AirPods

Цифровой помощник: Siri

Статистика использования:

У 42,5% смартфонов установлен цифровой ассистент Apple Siri (повышенная видимость)
41,4 млн. Активных пользователей в США по состоянию на июль 2017 года, что на 15% меньше, чем в предыдущем году (Verto Analytics)
19% пользователей iPhone взаимодействуют с Siri по крайней мере ежедневно (HubSpot)

Обзор:

Apple сохраняет завидную позицию на рынках смартфонов и ноутбуков, что позволило ей интегрировать Siri с ее ОС таким образом, что другие компании просто не могут реплицироваться. Даже Samsung, со своим помощником Bixby, не может похвастаться этим уровнем синергии, так как смартфоны работают на Android и, как результат, должны конкурировать с Google Assistant за внимание пользователя.

Тем не менее, как говорит статистика, они немного отстают, когда дело доходит до использования оборудования в умных домах потребителей. HomePod, почти наверняка, обеспечит гораздо лучший звук, чем Echo Dot или Google Home Mini, с ценой в 350 долларов. Он будет содержать множество впечатляющих функций, в том числе способность оценивать окружающее пространство и соответственно регулировать качество звука.

Запуск HomePod был отложен, а представители отрасли заявили, что причиной является Siri. Защита Apple дает определенные пользовательские преимущества, но имеет некоторые недостатки, когда речь идет о технологиях, таких как распознавание голоса. Google имеет доступ к огромному количеству информации, которую он обрабатывает в облаке, и использует её для улучшения работы помощника для всех пользователей. Apple не обладает таким ценным ресурсом, и ничем, кроме одного и того же,- количества, что замедляет развитие Siri с момента его появления на рынке.

Тем не менее, похоже, что это, скорее всего, краткосрочные проблемы.

Apple останется в стороне от своей основной бизнес-стратегии, и это пока что, очень хорошо. HomePod будет сидеть на премиальном конце рынка и опираясь на наследие дизайна Apple, уделять особое внимание обеспечению превосходного звука. Он будет запускаться только с поддержкой Apple Music, поэтому, если Apple не откроет свои двери третьим сторонам, то может остаться лишь со своими ярыми фанатами. К счастью для Apple, их достаточно, чтобы продукт стал плацдармом. Посмотрим.

image

Microsoft


Аппаратное обеспечение: Harman / kardon Invoke, Windows-смартфоны, ноутбуки Microsoft

Цифровой помощник: Cortana

Статистика использования:

У 5.1% смартфонов установлен помощник Cortana.
Cortana теперь имеет 133 миллиона пользователей в месяц (Tech Radar)
25% запросов Bing — голосом (Microsoft)

Обзор:

Microsoft была относительно стабильной на фронте распознавания речи, но козырь ее в обладании многими компонентами, необходимыми для успеха продукта по распознаванию речи.
Имея очень значительную долю на рынке, набор услуг Office и популярные продукты, такие как Skype и LinkedIn, Microsoft не следует списывать.

Решение Apple о невыполнении результатов Google по сравнению с Bing на его помощнике Siri стало ударом по амбициям Microsoft, но Bing все еще может быть конкурентным преимуществом для Microsoft на этой арене. Bing является источником бесценных данных и помог преобразовать Cortana в гораздо более эффективный инструмент распознавания речи.

Динамик Invoke, разработанный Harman / kardon с Cortana, интегрированный в продукт, также был сведен к более доступному $ 99,95.

В разработке есть новые динамики с поддержкой Cortana, а также умные домашние продукты, такие как термостаты. Это, предполагаю, может, удивить нас увеличением спроса, но есть острое ощущение, что Microsoft может немного опоздать к этой партии.

Там, где Microsoft может очень серьезно конкурировать, это офисная среда, которая также стала центральным фактором для Amazon. Microsoft готова пойти по другому пути, чтобы закрепиться на этом рынке, но он все равно может быть чрезвычайно прибыльным сегментом.

Будущее технологии распознавания речи


Мы все еще находимся на некотором удалении от реализации истинного потенциала технологии распознавания голоса. Проблема касается как изощренности самой технологии, так и ее интеграции в нашу жизнь. Текущие цифровые ассистенты могут очень хорошо интерпретировать речь, но они не являются диалоговыми интерфейсами, которых ожидают технологические поставщики. Более того, распознавание речи по-прежнему ограничено не очень небольшим количеством готовых продуктов.

Темпы прогресса, по сравнению с самыми ранними открытиями в распознавании речи, на самом деле довольно феноменальны.

И, исходя из этого, мы можем заглянуть в ближайшее будущее и предугадать трансформацию способа взаимодействия с окружающим нас миром. Понятие Amazonа о «эмбиентных вычислениях» кажется, здесь, вполне подходящим.

Рынок смарт-устройств имеет значительные возможности для роста, причем 75% американских домов, по прогнозам, будут иметь по крайней мере один к концу 2020 года.
Теперь, когда пользователи начинают преодолевать первоначальную неловкость в разговоре с их устройствами, идея попросить Аlexa вскипятить чайник или сделать эспрессо не покажется такой уж дикой.

Голос становится собственным интерфейсом, выходящим за пределы смартфона к дому, и вскоре, ко многим другим контекстам информирования.

Мы ожидаем увидеть более сложные отношения ввода-вывода по мере продвижения технологии. Голосовая связь, пока-что, несколько ограничивает потенциал ответа, но инновации, такие как Amazon Echo Show и поддержка Google для интеллектуальных дисплеев, откроют множество новых возможностей для взаимодействия. Apple и Google также будут включать свои приложения AR и VR, когда потребительский аппетит достигнет необходимого уровня.

Однако, мелкие проблемы все еще остаются. Прежде всего, провайдеры голосового поиска должны найти способ обеспечить выбор через среду, которая лучше всего подходит для коротких ответов. В противном случае, как можно обеспечить, чтобы пользователь получал наилучший ответ на свой запрос, а не ответ с самым высоким бюджетом решения?

Современные потребители здравомыслящие люди и имеют доступ к почти бесконечной информационной базе, поэтому любые недочеты от брендов будут задокументированы и распространены в сети пользователями.

Новое исследование, проведенное в Google, показало, что среди потребителей растет признание того, что бренды будут использовать смарт-динамики для общения с ними. Значительное число показало готовность получать информацию о сделках и продажах, почти половина из которых хотела получить индивидуальные советы.
Технология распознавания речи обеспечивает платформу для надежного общения, но маркетологи должны честные и взаимовыгодные отношения с их аудиторией.

Основные выходы


Бренды должны продумать, как они смогут сделать взаимодействие более ценным для пользователя. Безоговорочным преимуществом голосового поиска является то, что он быстрый, удобный и продуктивный. Но, с другой стороны, из-за ассимиляции и укрепления взаимосвязи между технологией и потребителем, они смогут разьединять нас. Пример «Красавицы и чудовища» дает заранее предостерегающий намек для всех нас.

Amazon находится в превосходном положении, чтобы монетизировать свою технологию распознавания речи, но все еще сталкивается с препятствиями. Спонсорство Amazon’s Choice было определено как маршрут для получения дохода без потери клиентов.

Google сделала голосовой идентификатор центром внимания для роста своего бизнеса. Имея в своем распоряжении огромное количество данных и увеличивая стороннюю поддержку, Google Assistant обеспечит серьезную угрозу для Alexa Аmazon в этом году.

Маркетологи должны использовать технические рекомендации для голосового поиска, чтобы повысить прозрачность работы устройств уже сегодня. Хотя эта технология все еще в процессе развития, мы должны протянуть ей руку помощи, поскольку она завершает, поистине, гигантские задачи.

Лучший способ понять, как люди смогут использовать технологию распознавания речи, — как можно чаще взаимодействовать с ней. Маркетологи, серьезно настроенные на выявление областей с дополнительными возможностями, должны проводить собственные исследования дома, на работе и в пути.

© Habrahabr.ru