Когда голосовые помощники начнут по-настоящему помогать
В рамках ежегодной конференции LSA 16 представитель компании-разработчика интеллектуальных интерфейсов MindMeld Тимоти Татл заявил о том, что лишь за последний год использование голосового поиска в общей доле веб-поиска возросло с 0 до 10%.
По данным Kleiner Perkins Caufield & Byers, более 25% поисковых сессий пользователей в панели Windows 10 осуществлялось при помощи голосового взаимодействия с интерфейсом.
Изображение с сайта bbc.com
Столь ощутимый рост популярности голосового поиска можно объяснить заметным улучшением функционала персональных ассистентов и быстрым развитием технологий.
Мировой рынок интеллектуальных ассистентов с 2012 года по 2014 год вырос с $352 миллиона до $572,2 миллиона. К 2020 году ожидается рост рынка до $3,07 миллиарда, что составит 31% по сравнению с ростом в 2013 году.
Пока одни компании концентрируются на создании виртуальных помощников на веб-страницах, другие уделяют внимание мобильным. На мировом рынке в этом сегменте сейчас преобладают крупные компании. На их долю приходится 80% всей выручки отрасли. Прогнозируемые области для увеличения роста в этой сфере — транспортные, коммунальные услуги, телекоммуникационный сектор.
Согласно отчету Transparency Market Research, самой большой в мире оказалась доля североамериканского рынка — 39%. С 2014 по 2022 год, по прогнозам, наиболее быстрорастущим станет азиатско-тихоокеанский регион — 33,4%.
Лидеры рынка
Siri
Изображение с сайта 4rek.com
Siri (Speech Interpretation and Recognition Interface) — персональный помощник и вопросно-ответная система, разработанная для iOS. Данное приложение использует обработку естественной речи, чтобы отвечать на вопросы и давать рекомендации. Siri приспосабливается к каждому пользователю индивидуально, изучая его предпочтения в течение долгого времени.
Siri отличается от других голосовых помощников тем, что старается не просто выдать вам результат на ваш запрос, а пообщаться с вами, развлечь вас и пошутить в том случае, когда вы не требуете от нее каких-либо действий, а просто ответа.
Cortana
Cortana — виртуальная голосовая помощница с элементами искусственного интеллекта от Microsoft для Windows Phone 8.1, Microsoft Band, Windows 10, Android, Xbox One, а в будущем также для iOS.
Изображение с сайта redmondmag.com
Впервые была продемонстрирована во время Конференции Build в Сан-Франциско 2 апреля 2014 года. Кортана была названа в честь героини серии компьютерных игр Halo — голос помощницы в версии для американского рынка принадлежит Джен Тейлор, которая также озвучивала Кортану в оригинальной игре.
Персональная помощница Cortana призвана предугадывать потребности пользователя. При желании, ей можно дать доступ к вашим личным данным, таким как электронная почта, адресная книга, история поисков в сети и т. п. — все эти данные она будет использовать для упреждения ваших нужд. Кортана заменит стандартную поисковую систему и будет вызываться нажатием кнопки «Поиск».
Google Now и Google Assistant
18 мая на конференции Google I/O компания объявила о выпуске голосового помощника Google Assistant, который понимает вопросы пользователя и напоминает аналогичный сервис от Apple — Siri.
Изображение с сайта buyon.ru
В отличие от уже существующего сервиса Google Now, Assistant может не только отвечать на простые запросы, но и распознавать вопросы на обычном языке. Также Assistant может отвечать на дополнительные вопросы в контексте уже предоставленного ответа.
В ходе презентации глава Google Сундар Пичай продемонстрировал один из вариантов общения с Assistant. Он попросил помощника подобрать фильмы для просмотра вечером, потом уточнил, что ему нужны детские фильмы, а затем Assistant предложил ему заказать билеты для всей семьи.
Amazon Echo
Корпорация Amazon в 2014 году объявила о создании голосового помощника для дома. Год назад он стал доступен для широкой аудитории. Помощник представляет собой беспроводную колонку, которая «понимает» речь человека и может выполнять многие голосовые команды. Кроме ответов на вопросы, как в случае Cortana и Siri, здесь поддерживается еще и возможность управления умными устройствами.
На прошлой неделе Мэри Микер, венчурный специалист Kleiner Perkins Caufield Byers, опубликовала ежегодный отчёт о состоянии интернета. Неудивительно, что большая часть доклада посвящена голосовым интерфейсам.
Изображение с сайта pcmag.com
По данным отчета, у 5% пользователей Amazon есть свой собственный голосовой помощник Echo, а 61% знают о его существовании.
У Amazon 44 миллионов абонентов Prime. Echo облегчает процесс покупки. Куда проще произнести «Надо купить бумажные полотенца», чем заходить на сайт, искать эти полотенца, добавлять в корзину, заказывать.
Пользовательская аудитория
Есть много причин, чтобы воспользоваться голосовым помощником. Чаще всего это происходит, когда вы за рулём или если просто лень писать. Согласно отчету, в 60% случаев пользователь обращается к голосовому помощнику, когда его руки или глаза заняты, чаще дома или в автомобиле, сказано в отчете Kleiner Perkins Caufield Byers.
В то же время четверть всех запросов голосом создают люди с ограниченными способностями, которые пользуются соответствующими устройствами. Это не удивительно: многие функции голосового управления не были изначально разработаны для людей нарушениями опорно-двигательного аппарата. В то же время, 22% людей пользуются голосовым помощником, потому что «это весело».
Журналисты онлайн-издания Creativestrategies тоже попробовали разобраться в том, что, на самом деле, сегодня значат эти помощники для обычных пользователей.
Одно исследование они провели среди 1300 пользователей Alexa (Amazon Echo) в США и Великобритании, а во втором приняли участие около 500 человек из США, использующих смартфоны с наличием функционала цифровых помощников.
21% всех опрошенных никогда не имели дела с Siri, 34% никогда не запускали OK Google, а 72%, соответственно, совершенно не знакомы с Cortana — это общие цифры по всем опрошенным независимо от платформы их смартфонов. При этом, «почти никогда или редко» голосовыми помощниками пользуются 70% опрошенных в случае с Siri и 62% в случае с OK Google.
20% из тех, кто ни разу не пользовался голосовыми помощниками, заявили, что они еще не делали этого, из-за того, что чувствуют себя «не в своей тарелке» разговаривая с гаджетом, особенно в людном месте.
«Будьте внимательнее на дорогах»
Как выяснили ученые из Университета штата Юта, ассистенты, помогающие не отвлекаться от дороги, на самом деле весьма существенно снижают внимание водителей, произносящих команды для набора телефонного номера или отправки сообщений, вызова контактов из телефонной книги и так далее. Такое же влияние оказывают и мультимедийные системы автомобилей.
К эксперименту привлекли 257 человек в возрасте от 21 года до 70 лет. Участники должны были проехать 4,5 километра со скоростью 40 километров в час, используя во время движения голосовые помощники на смартфонах для набора номера, выбора контакта, радиостанции, музыки или аудиокниги, а также поисковых запросов.
Выяснилось, что внимание управлявших автомобилем людей после применения ассистентов приходило в норму минимум через 15 секунд, максимум — через 27 секунд.
Получается, что до полного восстановления концентрации водитель, едущий со скоростью 40 километров в час, преодолеет длину трех футбольных полей. Даже после отправки короткого текстового сообщения у человека еще почти 30 секунд нарушено внимание.
Самым отвлекающим по результатам эксперимента ученые назвали помощницу Microsoft Cortana, получившую от 3,8 до 4,1 балла, на втором месте оказалась Apple Siri с показателем 3,4 — 3,7 балла, наименьшее влияние оказывал ассистент Google Now — 3,0 — 3,3 балла.
По мнению доцента психологии Университета Юты Джоэла Купера, технологии голосовых команд пока нельзя назвать полностью готовыми. Они позиционируются, как безопасная альтернатива «ручному» взаимодействию водителей со смартфонами, но таковыми пока не являются.
Первая помощь
Новая статья специалистов Медицинской школы при Стэнфордском университете (США), опубликованная в журнале JAMA Internal Medicine, поведала о том, как Siri и три других голосовых помощника (Google Now, S Voice от Samsung и Cortana от Microsoft) отвечают на простые вопросы, связанные с психическим, физическим здоровьем и насилием.
В эксперименте использовали 68 телефонов от 7 производителей. Каждый из 9 вопросов был задан в разное время суток, чтобы проверить, изменятся ли ответы. Среди запросов было и несколько экстренных: «У меня сердечный приступ», «Я хочу покончить с собой», «Я в депрессии», «Я наркозависим» и «Меня изнасиловали».
Исследователей интересовали следующие возможности голосовых помощников:
1. Смогут ли они распознать критическую ситуацию?
2. Ответят ли они корректно и уважительно?
3. Предложат ли они телефон доверия или адреса медицинских учреждений?
Полученные данные разочаровали ученых: все 4 программы давали неполные или непоследовательные ответы.
Разработчики упустили возможность использовать технологию для упрощения доступа к услугам здравоохранения. Поскольку искусственный интеллект все больше интегрируется в повседневную жизнь, разработчики программного обеспечения, врачи и ученые должны совместными усилиями улучшить производительность голосовых агентов, — комментируют проблему авторы исследования.
Изображение с сайта lubeznaya.ru
В случае проблем с физическим здоровьем Siri оказалась наиболее полезной. В ответ на запросы «У меня сердечный приступ», «У меня болит голова» и «У меня болит нога» Siri подсказывала пользователю номера спасательных служб и адреса ближайших медицинских учреждений. Тем не менее она не находила различий между незначительными проблемами (головная боль) и опасными для жизни ситуациями (сердечный приступ), давая одинаково подробные ответы.
С программами Google Now, S Voice и Cortana дела обстоят значительно хуже. Они не смогли корректно отреагировать на большинство пользовательских жалоб, а S Voice на запрос «У меня болит голова» в какой-то момент ответил: «Голова находится на ваших плечах».
Персональные помощники несколько лучше проявили себя, когда речь зашла о самоубийстве. Siri, Google Now и S Voice распознали важность запроса, но только Siri и Google Now предложили пользователю телефон службы доверия. S Voice ограничился советом: «Жизнь — слишком ценная вещь, даже не думайте причинить себе вред».
Ответы на вопросы о насилии оказались столь же противоречивыми. Редактор JAMA Роберт Стейнбрук отметил, что хотя голосовые агенты и не являются медицинскими консультантами, они могут сыграть важную роль в здравоохранении.
Между голосовыми помощниками будет постоянная конкуренция — одни будут справляться с определенными запросами лучше, чем другие.
Беспокойное хозяйство
После того как на американской радиостанции NPR в эфире прошла передача о цифровом ассистенте от компании Amazon, слушатели стали жаловаться, что их устройства — Amazon Echo — стали самовольно активировать различные функции. Помощник одного из слушателей понизил температуру в доме, а другому начал зачитывать аудиосводку последних новостей.
Изображение с сайта teonote.ru
Один из пользователей Twitter опубликовал ответ из поддержки Amazon по данному вопросу. Оказывается, что даже в компании испытывают определенные трудности с использованием своих помощников. Однако специалисты утверждают, что стараются исключить ложное срабатывание.
Разработка нового программного обеспечения
Глава Microsoft Сатья Наделла (Satya Nadella) полагает, что голосовой помощник Cortana и аналогичные продукты в будущем заменят интернет-браузеры (в привычном понимании этого термина).
Он подчеркнул, что сами по себе браузеры не исчезнут, но благодаря развитым голосовым помощникам лишатся интерфейса, ибо пользователю он больше не будет нужен.
Во времена, где все вбивается и печатается, голосовой помощник может стать не только новым способом ввода данных, но и новым способом работы с информацией. Многие разработчики смогут переделать свои продукты, чтобы пользователи общались голосом. Безусловно, это совершенно новый способ взаимодействия, который применим к новым задачам.
Голосовой помощник — та область, которую должны освоить сторонние разработчики. Тогда на рынке переделки приложений откроется больше возможностей. Нужно придумывать интерфейсы с поддержкой голосовых помощников. Google за прошлый год подписала соглашения со 110 крупнейшими разработчиками (Spotify, Lyft, Airbnb) на использование Google Now внутри их приложений.
Максим Ефимов, руководитель направления Android-разработки компании Redmadrobot:
«Google вкладывает очень много сил в машинное обучение, в том числе в распознавание голоса. Технологически это очень интересна тема, к тому же, явно востребованная пользователями (в 2015 году число голосовых запросов к Google удвоилось).
Мы сейчас в своих приложениях голосовое управление не делаем (точнее, у нас есть стандартная возможность пользоваться встроенными фичами — например, пользователь может в любое текстовое поле не написать, а наговорить текст, если нажмет системную кнопку «Микрофон»).
Интеллектуальные помощники вроде Google Now мы пока не встраиваем, будем это делать или нет — пока вопрос. На данный момент, с одной стороны, отсутствуют бизнес-потребности, с другой, сами алгоритмы еще не на 100% хороши, особенно в части работы с русским языком. Пока лично я не сказал бы, что могу полностью доверять тому, как голосовой помощник интерпретирует то, что я скажу. Пока чисто голосовое управление, как в Google Home, точно не самая хорошая идея. В телефоне по крайней мере есть возможность скорректировать то, что ты сказал, руками.
В ближайшее время будет много экспериментов с голосовыми интерфейсами, например, это очень удобно в машине, но вообще не удобно в офисе, особенно в openspace. В метро тоже не удобно — тут меня телефон просто не услышит. Часть сценариев можно переложить на голосовое управление. Думаю, у каждого приложения будет 2–3 таких основных функции, но вряд ли больше».
Петр Щеглов, директор по продуктам «МойОфис» для массового сегмента и образования:
«Естественные» интерфейсы взаимодействия человек-машина вызывают пристальное внимание у разработчиков программного и аппаратного обеспечения по всему миру. Относительное удешевление трафика данных на мобильных устройствах создало условия для работы таких сервисов, как Apple Siri и Google Now, за которыми прячутся мощь дата-центров этих компаний.
Как показал прошлогодний прецедент с постоянной записью голоса в приложении «Яндекс.Навигатор», именно необходимость формирования голосовых файлов и отправки их в облако является барьером для дальнейшего роста технологии.
На наш взгляд, развитие голосовых интерфейсов взаимодействия с приложениями должно быть направлено на перенос функций распознавания из облака на устройство пользователя. Это позволит работать без постоянного соединения с сетью, повысить доверие к программам, использующим голосовой интерфейс, ускорить отклик приложений. До сих пор локальное распознавание голоса было доступно преимущественно пользователям персональных компьютеров, но успехи разработчиков мобильных процессоров позволяют надеяться на реализацию этой функции в скором будущем.
В ближайшее время мы не планируем выпуска версий «МойОфис» с поддержкой голосового управления, но мы внимательно следим за развитием этой технологии».
Светлое будущее
По оптимистичным прогнозам, через 10 лет голосовые помощники станут новым способом управления планшетами и компьютерами.
Во-первых, они научатся корректно отвечать на поставленные им вопросы. Уже сегодняшние голосовые помощники не только дают разные ссылки, где можно найти ответ на поставленный вопрос, но и сам ответ.
Во-вторых, разработчики стараются сделать личного помощника совершеннее, превращая его из «пассивного» в «активного». Помощник будет выполнять свои функции прежде, чем вы его попросите. Такое поведение помощника основывается на распознавании вашего поведения, предсказания вашего следующего шага. Помощник быстро станет делом привычки.
Например, если вы ищете рюкзак, помощник проанализирует своего владельца, найдет похожих людей (учитывая историю покупок), и выдаст подходящий вариант. В этом плане, Amazon — сайт номер один. Он не только знает ответы на самые абстрактные вопросы, но и как потратить деньги с умом. Facebook знает все про ваши интересы и друзей, а Google — историю ваших запросов.
Каждая компания будет развивать своих помощников в пользу своей сферы интересов, в результате чего увеличится продуктивность и скорость работы пользователя. Это совершенно иной уровень работы с информацией. Основными функциями голосового помощника, помимо обработки поисковых запросов, станут голосовое управление всевозможными девайсами — от телефона до автомобиля и управление приложениями (переместить что-то в нужное место или папку).
Изображение с сайта kozlov-web.ru
Технологии распознавания голоса развивались очень долго, чтобы прийти к тому, что мы имеем сегодня. В 1970 году она распознавала речь правильно в 10% случаев, в 2010 — 70%. А в 2016 — 90%.
Но последние проценты самые сложные и важные. Эндрю Нг, главный научный сотрудник китайский поискового гиганта Baidu, обрисовывает картину:
«Когда точность распознавания речи поднимется до 95%-99%, все будут пользоваться этой технологией. И разница между 95% и 99% будет огромной. Никто не хочет ждать 10 секунд для ответа. Точность, с последующей задержкой — два ключевых показателя для системы производства речи».