Какие задачи встанут перед UX-дизайнерами в эру развития голосовых интерфейсов14.04.2017 11:23

Придумать новые способы взаимодействия, создать голос бренда, обеспечить доступность и приватность информации.

В избранное

Директор по продукту Digital Telepathy Джейсон Амунва рассказал о возможностях и последствиях перехода к голосовому UX-дизайну.

Голосовой интерфейс смело можно назвать брендом 2017 года. Об этом свидетельствуют последние выступления на CES 2017 (Consumer Electronic Show), многочисленные дискуссии на технических блогах и даже рекламные ролики перед моим любимым сериалом. Такое чувство, что именно в этом году голосовое взаимодействие станет мейнстримом.

О возможности разговаривать с вашими устройствами так, чтобы они понимали вас и делали то, о чём вы их просите, сегодня не говорит только ленивый. Голосовое взаимодействие было интегрировано почти в каждый новый девайс, представленный на выставке CES 2017, независимо от его размера и назначения. В качестве AI-платформы большинство производителей выбрали Amazon Alexa.

Такое стремительное распространение голосового интерфейса в цифровых системах индивидуального пользования ставит перед дизайнерами огромное количество сложных вопросов и проблем. Очевидно, что в ближайшем будущем голосовое взаимодействие станет реальной альтернативой традиционным визуальным интерфейсам, а в чём-то заменит их полностью.

Возникновение голосового интерфейса радикально меняет подход к разработке UX — так же, как появление сенсорных смартфонов когда-то перевернуло подход к веб-дизайну. Однако, судя по всему, это изменение проявится гораздо быстрее и не ограничится экранным взаимодействием.

Трансформация затронет едва ли не каждый аспект нашей жизни. Как только потребители начнут разговаривать с продуктами, производителям придётся учиться удовлетворять ожидания пользователей, заранее проектируя все тонкости голосового взаимодействия. То есть заниматься всем тем, что они делают сейчас по отношению к визуальному интерфейсу.

Когда-то интернет стал детской песочницей, на которой выросли совершенно новые принципы интуитивного дизайна продуктов. Точно так же и современные голосовые технологии: пока они находятся лишь в зачаточном состоянии, но уже несут в себе безграничный потенциал, который вот-вот выльется в инновационный, ориентированный на пользователя дизайн.

В этой статье я попробую представить, как экспансия голосового взаимодействия может повлиять на UX-дизайн.

Причины популярности голосового взаимодействия

Прежде чем погрузиться в специфику воздействия голосового интерфейса на нашу индустрию, попробуем понять, какие силы стимулируют быстрое принятие голоса как новой среды взаимодействия.

Закон Мура

До недавнего времени точная обработка естественного языка относилась к области фантастики. По большей части из-за отсутствия мощных компьютеров, способных распознавать и интерпретировать человеческую речь в режиме реального времени.

В 2016 году обработка языка претерпела множество значительных улучшений, и мы, наконец, достигли той критической точки, в которой вычислительной мощности хватает для того, чтобы голосовое взаимодействие стало жизнеспособной альтернативой визуальным интерфейсам.

Улучшения в обработке естественного языка подготовили сцену для новой революции в нашем взаимодействии с техникой: мы всё больше и больше предпочитаем голос экрану.

Шон Дубравак, ведущий экономист Consumer Technology Association сказал, что 2017 год станет в этом смысле переломным: компьютеры сравняются с людьми и будут совершенно точно транскрибировать человеческую речь в 94% случаев. Мы находимся на пороге абсолютно новой эры невидимых компьютеров.
— Дж. Уолтер Томпсон, «CES 2017: Ключевые тренды»

Нетрудно предположить, что если сегодня едва ли не каждый третий житель планеты ходит в наушниках, подключённых к карманному суперкомпьютеру, возможность управления устройствами с помощью голоса обрадует очень многих.

Жизнеспособная многофункциональная голосовая платформа

Научить машины понимать нас правильно — это лишь первый шаг в стремлении достичь свободного голосового общения. Второй шаг состоит в том, чтобы реализовать его в самых разных ситуациях и контекстах.

И если главным условием вовлечения в онлайн-пространство было наличие доступа к интернету, то выбор голосового взаимодействия будет ограничиваться вариантами сценариев, в которых устройства смогут нас понять.

На выставке CES 2017 Alexa продемонстрировала свою жизнеспособность в качестве универсальной платформы. Это подтвердили многие разработчики оборудования и ПО, а также девятикратный рост продаж устройства Echo.

Возможно, Alexa не идеальна, но сейчас она является реальным претендентом на то, чтобы стать первой голосовой платформой для широкой аудитории.

[embedded content]

Это не новое направление, а всего лишь следующий шаг

Как дизайнеры, мы понимаем, что люди всегда общались с техникой с помощью посредников — рычагов и педалей, перфокарт и кодов, графических интерфейсов и тачскринов и, наконец, голоса.

Каждое продвижение по этому пути было продиктовано потребностью увеличить скорость и эффективность устройств, а также сделать взаимодействие с ними как можно проще и доступнее для максимального количества людей.

Сегодня (пока мы не научились общаться с цифровыми устройствами телепатически) голос является кульминацией интуитивных интерфейсов, направленных на демократизацию технологий.

Теперь, когда мы в целом понимаем, что именно лежит в основе голосового взаимодействия, давайте разберёмся, что сулит этот тренд для UX-дизайнеров.

Какие задачи встанут перед UX-дизайнерами

Придумать словарь

В последнее время среди дизайнеров визуальных интерфейсов стало модным избегать использования шаблонных и клишированных текстов. В голосовом взаимодействии качество пользовательского опыта станет ещё больше зависеть от выбранных нами слов, ведь теперь в интерфейсе не будет сопровождающих текст визуальных подсказок.

Дизайнеры голосовых интерфейсов несут стопроцентную ответственность за то, как пользователь интерпретирует выбранные ими слова и фразы.

[embedded content]

Очевидно, в голосовом взаимодействии с устройствами понадобится какой-то стандартизированный набор командных фраз и ключевых слов, чтобы пользователи могли интуитивно переходить от одной AI-системы к другой. Лучше всего, если этот набор команд будет ограниченным, легко запоминающимся и подходящим для любого из AI-ассистентов.

Именно дизайнеры должны первыми адаптироваться к ограничениям, присущим новой среде взаимодействия. Мы не сможем уточнять обозначения процессов с помощью изображений или использовать анимацию, чтобы объяснить сложные концепты.

У нас больше не будет возможности использовать подсказки вроде «Нажми здесь». И даже самый фундаментальный элемент веб-дизайна — кликабельная ссылка — исчезнет из будущих стандартов дизайна интерфейсов. Всё это означает, что нам предстоит разработать совершенно новый набор сценариев, интуитивно понятных любому пользователю.

Интерпретировать намерения пользователя

Ключевой задачей для дизайнеров «переходного периода» станет последовательная интерпретация команд визуального интерфейса с учётом специфики голосового взаимодействия. Это особенно актуально для веб-приложений.

Не имея ясного сигнала вроде нажатия кнопки, дизайнеры будут вынуждены не только предвидеть намерения пользователя в каждой точке диалога, но и формулировать соответствующую реакцию AI-ассистента.

Например, фраза «Удали это» может стать однозначной командой как для работы с документами Microsoft Word, так и для управления настройками профиля в Facebook (если там появится голосовая поддержка). Но стоящие за этими словами намерения пользователя и инициированные ими сценарии будут радикально отличаться друг от друга.

Это различие не всегда легко разглядеть. Давайте представим, как визуальный и голосовой интерфейсы обрабатывают одно и то же цифровое взаимодействие — подписку на email-рассылку. В традиционном визуальном интерфейсе типичный процесс подписки для пользователя выглядит примерно так:

Просто и однозначно, верно? А вот как этот процесс может быть инициирован голосом:

Подпиши меня на этот блог.
Добавь мой email в их список.
Посылай мне обновления с этого сайта.
Внеси меня в их рассылочную базу.

Существует бесконечное число способов выразить это простое намерение с помощью голоса, и UX-дизайнерам следует быть очень внимательными, чтобы задавать правильные вопросы, на которые пользователи смогут дать подходящий словесный ответ.

Поддерживать вовлечение

Как только голосовое взаимодействие станет привычным для основной массы пользователей, дизайнеры встанут перед необходимостью поддерживать их интерес. Как видно из приведённого выше примера, при голосовом общении появляется масса самых разных формулировок даже для чёткого двоичного выбора. Но именно эта вариативность предоставляет нам прекрасные возможности для вовлечения пользователей.

Центром удовольствия называется та часть человеческого мозга, которая активизируется, когда мы страстно чего-то хотим. Любая непредсказуемость отлично стимулирует этот центр. Мы становимся предельно внимательными, когда не можем угадать, что произойдёт дальше, — это отчасти объясняет зависимость от азартных игр, а также успех сериала «ОА» от Netflix.

Многие продвинутые дизайнеры визуального UX активно используют эту неврологическую особенность, и она же придётся кстати, когда мы начнём разговаривать с нашими устройствами. Вариативность взаимодействия с искусственным интеллектом является ключом к его очеловечиванию, именно из-за этого пользователи порой приписывают AI настроение и даже личность.

Говоря о разнообразии потенциальных ответов, нужно уделить особое внимание созданию осмысленных сообщений об ошибках — ведь они должны возвращать зашедший в тупик диалог в нужное русло и при этом не раздражать пользователя.

Мы быстро потеряем интерес к общению, если механический голос будет монотонно повторять: «Простите, я пока не нашёл эту информацию».

Создавать «голос бренда»

Независимо от содержания сказанного, любой голос сообщает слушателю огромное количество метаинформации — поэтому бренды так любят использовать голосовую среду для расширения своего воздействия. Пол, возраст, интонация, тембр, акцент, ритм и темп — дизайнеры UX могут использовать все эти элементы, чтобы связать пользовательский опыт со своим брендом.

Авиакомпания Virgin America общается со своими пассажирами на правильном английском, приятным интригующим голосом — и чётко с ним ассоциируется. А вот The New York Times предпочитает использовать для своих объявлений более мужественный и уверенный голос.

В «Диснейленде» ваш ребёнок сможет разговаривать с Микки Маусом. А компания Apple нашла для своей новой операционной системы безумно привлекательный и в то же время успокаивающий голос (Скарлетт Йоханссон из фильма «Она»).

Впрочем, некоторые бренды позволяют пользователям выбирать тот голос, с которым они будут взаимодействовать. Это наводит на философские размышления о том, кто же реально управляет брендом? Кто его определяет: компания или пользовательское восприятие?

Нам представляется, что VX-дизайнер станет чем-то средним между продюсером и звукоинженером, корректирующим синтетический голос в поисках того варианта, который будет лучше вовлекать пользователей.

Знаменитости, в свою очередь, получат возможность проявить себя не только при помощи голоса, но и как личность в роли AI-ассистента. Вам кажется, что это нелепо звучит? Но ведь вы уже платите $10, чтобы ваш GPS-навигатор говорил голосом Снупа Дога.

[embedded content]

Обрабатывать информацию

Одним из преимуществ визуальных интерфейсов над голосовыми остаётся возможность предлагать пользователю множество иерархически упорядоченных вариантов — в качестве примера можно привести страницу с результатами поиска или обычный прайс.

В наш век, когда любые потребности удовлетворяются почти мгновенно, трудно представить себе среднего пользователя, терпеливо внимающего, как его AI-помощник перечисляет услуги прачечной или оглашает список ресторанов, находящихся в шаговой доступности.

Это классический пример новой среды, которую старые привычки только ограничивают: вы ведь не распечатываете на принтере свои email-сообщения перед тем, как их отправить — хотя это и добавляет надёжности, но абсолютно не соответствует сегодняшним потребностям.

Более жизнеспособный подход состоит в предварительном обобщении и ранжировании информации на основе пользовательских предпочтений. Обычно люди именно это и делают, разговаривая друг с другом:

— Эй, Джейсон, где тут можно поесть суши?

— В этом районе несколько ресторанов суши, ты хочешь пройтись пешком или поехать на машине?

— Сегодня славный денёк, я бы прогулялся.

— Окей, в двух минутах ходьбы отсюда Emperor Sushi, а если ты хочешь что-нибудь подешевле — в пяти минутах есть Ninja Sushi Deli.

— Спасибо, буду знать. Пойдём в Emperor Sushi!

В этом случае ориентированный на пользователя помощник задаёт релевантные уточняющие вопросы (Как далеко ты готов пройтись пешком? Сколько денег ты рассчитываешь потратить?), тем самым сужая список лучших вариантов перед тем, как их порекомендовать.

Такие ветвящиеся диалоги имеют широкий спектр приложений: больничные служащие и отельные консьержи могли бы расстаться с неудобными планшетами и начать общаться с устройствами, которые умеют распознавать голос. Было бы неплохо, если бы в вашем номере отеля был реализован голосовой интерфейс, каждый ответ которого запрограммирован с учётом последних достижений и передового опыта в сфере гостеприимства.

Обеспечивать доступность и приватность

Следует также продумать вопросы, связанные с доступностью голосового взаимодействия для людей со слабым слухом, проблемами с речью или просто потерявших голос из-за болезни. Для этой категории пользователей голосовой интерфейс был исключительно важен задолго до того, как стал мейнстримом.

«Если для трудоспособных людей голосовые технологии являются лишь дополнительным удобством, то для инвалидов это величайший дар — возможность стать независимым», — пишет Стив Спон.

Только представьте, какое огромное влияние могут оказать UX-дизайнеры на качество жизни людей с нарушениями моторных функций, — ведь для них это буквально вопрос жизни и смерти.

Людям с ограниченными возможностями в голосовом взаимодействии, скорее всего, будет не хватать простоты и интуитивности. Поэтому серьёзной задачей для дизайнеров может стать создание некой гибридной конфигурации, включающей в себя как аудио-, так и визуальные сценарии для таких категорий пользователей. В частности, очень пригодятся чат-боты.

Говоря о голосовой среде, нельзя не упомянуть вопросы личной безопасности, ведь нам придётся столкнуться с совершенно новыми рисками и уязвимостями.

Большинство современных управляемых голосом устройств ради удобства пользователей автоматически запоминают и хранят их учётные записи, но это палка о двух концах: в один прекрасный момент курьер доставит вам упаковку вкусняшек стоимостью в $100, и тогда вы поймёте, почему ваш шестилетний сын прячет от вас глаза.

Голос легко подделать, записав, как вы вслух произносите пароль, а также отредактировать, чтобы впоследствии синтезировать команды, которые вы никогда не давали. Продвинуть голосовое взаимодействие дальше невозможно без решения проблем, связанных с конфиденциальностью.

Вкратце

Голосовое взаимодействие является огромным скачком вперёд в UX-дизайне, и в 2017 году нам предстоит познакомиться со множеством новых физических и программных продуктов.

В голосовой среде невозможно опираться на парадигмы визуального UX-дизайна. Поэтому дизайнеры уже сейчас должны приступить к работе над этой пока ещё сырой технологией. Первыми их действиями могут стать тщательная выверка словаря голосовых интерфейсов, а также работа над ясным пониманием намерений пользователей на каждом шаге беседы.

По мере развития голосовых интерфейсов перед дизайнерами встанет задача вовлечения пользователей с помощью брендированных AI-ассистентов. И если сначала речь будет идти только о продуманных ответах помощника, то со временем им придётся работать над созданием целостных образов, тесно связанных с тем или иным брендом.

То, что описано в данной статье, представляет собой серьёзный вызов для UX-дизайнеров. Пожалуй, это самый большой вызов с 2007 года, когда Стив Джобс провёл свою легендарную презентацию «One Last Thing», положив начало инновационным преобразованиям в веб-дизайне.

[embedded content]

Голосовое взаимодействие пока не очень популярно, но оно растёт, множится и часто полностью замещает визуальный UX-дизайн, превращаясь в новый стандарт пользовательского интерфейса. Много лет ограничения нашей технологии вынуждали нас создавать интерфейсы в двумерном пространстве.

Сегодня мы выходим в третье измерение. И дизайн голосовых интерфейсов может стать тем катализатором, который поможет нам вернуться к изначальной цели UX — общаться с людьми «по-человечески».