Google опубликовал пособие по Voice Playbook для разработчиков conversational AI11.06.2021 16:31

Корпорация Google недавно выпустила интерактивную публикацию, которая демонстрирует процесс работы обычных пользователей с голосовыми технологиями. Это своеобразное пособие по голосовому UI еще и подсказывает различные идеи представителям отрасли. В основе материала от Google — идея разработки оптимальной голосовой технологии, которая позволит привлечь гораздо больше людей в онлайн в рамках стратегии Google Next Billion Users. Подробности о пособии по голосовым технологиям от Google — под катом.

Voice Playbook — что это?

Пособие или мануал — называйте, как хотите — охватывает большое количество разных тем. Здесь огромный объем фотографий, графиков, диаграмм, которые позволяют понять, как голосовые технологии используются сегодня.

Сначала составители мануала определяют термин «голосовое взаимодействие». Это, по их словам, запись, команды, разговоры, диктовка. У каждого действия — собственная ветка, хотя элементы можно переставлять. По мере того, как голосовые технологии выходят на международный уровень, Google начинает рассматривать их как важный элемент подключения к онлайну людей, которые не используют сенсорный экран или клавиатуру по разным причинам. Возможно, это просто ограниченная грамотность, либо особенности национального алфавита. По данным компании, набор абзаца текста на хинди занимает в три раза больше времени, чем на английском. И голосовые технологии решают эту проблему.

«Легко думать о возможности разговаривать по телефону как об удобстве, ведь это способ получения информации во время вождения или приготовления еды. Но для многих новых пользователей интернета голосовая связь не просто полезна — она критически важна», — рассказал в своем блоге представитель Google Next Billion Users Асиф Баки.

Особенности восприятия голосовых технологий

По словам Google, к внедрению таких технологий нужно относиться с осторожностью. Если что-то пойдет не так — неопытные пользователи будут отказываться от них. Это относится как к тексту, так и к аудио. Кроме того, у ряда пользователей использование голоса для взаимодействия с электронным устройством вызывает беспокойство — просто потому, что находящийся рядом человек может услышать то, что предназначается исключительно собеседнику, а не посторонним.

«Технологии могут создавать некоторые проблемы для пользователей голосовой связи, но, если они правильно разработаны и построены, они также могут помочь преодолеть сложности», — прокомментировал ситуацию Баки. «Опираясь на уроки, которые мы извлекли с помощью нашей собственной голосовой технологии, мы разработали набор принципов, которые помогут отрасли двигаться вперед, помогая разработчикам со всего мира задуматься о том, как развивать голосовую связь. Когда мы понимаем, как люди воспринимают голос, мы получаем возможность значительно повысить полезность и доступность технологий, которые они используют».

В пособии также подаются идеи по преодолению проблем отрасли. Часть из них — социальная, поскольку поднимает вопрос адаптации голосовых технологий для новых пользователей. Другая часть — техническая, авторы пособия предлагают несколько способов оптимизации ИИ для того, чтобы повысить качество распознавания речи человека.

В целом, корпорация будет добиваться того, чтобы миллионы новых пользователей не боялись использовать голосовые технологии, а, наоборот, быстро к ним адаптировались.

«Мы с нетерпением ждем возможности помочь как можно большему количеству людей использовать свой голос и быть услышанными, в прямом и переносном смысле», — заявил представитель компании.

Подготовлено по материалам voicebot.ai