UX для искусственного интеллекта или история создания Google Clips29.05.2018 15:51

Как процесс проектирования, ориентированный на человека, развивает искусственный интеллект.

Перевод подготовил Николай Геллар, автор блога о дизайне Sketchapp.me.

Как и в случае с мобильной революцией и интернет-революцией до этого, машинное обучение заставит нас переосмыслить, перестроить и пересмотреть возможности практически всего опыта, созданного нами. В сообществе Google UX мы начали работу под названием «Машинное обучение, ориентированное на человека», чтобы получить обратную связь на эту тему.

Мы рассматриваем продукты с этой точки зрения, чтобы узнать, как машинное обучение (ML) может оставаться обоснованным в потребностях человека при решении его проблем способами, которые возможны только благодаря ML.

Наша команда в Google работает, чтобы понять, как наилучшим образом интегрировать машинное обучение в набор UX-инструментов и сделать так, чтобы пользователи смогли использовать машинное обучение и ИИ инклюзивным способом.

Реальные моменты родителей, детей и домашних животных, пойманные камерой Google Clips

Google Clips — это интеллектуальная камера, предназначенная для непринуждённой съемки знакомых ей людей и домашних животных. Она использует искусственный интеллект, чтобы научиться фокусироваться только на людях, с которыми вы проводите время, а также понимать, как делать красивые и запоминающиеся фотографии.

Используя Google Clips в качестве примера, мы рассмотрим результаты трёх лет работы по созданию моделей взаимодействия, промышленного дизайна и пользовательского интерфейса. Включая использование подхода, ориентированного на человека, для разработки продукта под управлением ИИ.

Clips позволяет выбрать идеальный кадр (слева) и сохранить его как фотоснимок (справа). В этом случае я закрепил камеру на баскетбольном кольце, чтобы захватить момент, как мой сын закинет мяч в корзину

Если вы не согласовываете продукт с человеческой потребностью, вы просто создаёте очень мощную систему для решения очень маленькой или, возможно, несуществующей проблемы.

Просто добавить больше UX-дизайнеров в проекты, использующие машинное обучение, будет недостаточно. Важно, чтобы они поняли его основные концепции, избавились от предубеждений об ИИ и его возможностях, а также согласовали лучшие практики для создания и поддержания доверия.

Каждый этап жизненного цикла машинного обучения открыт для инноваций — от определения того, какие модели будут полезны для сбора данных, аннотации, до новых форм прототипирования и тестирования.

Мы разработали следующие принципы в качестве якорей, чтобы показать, почему так важно принимать подход, ориентированный на человека, для построения продуктов и систем на базе машинного обучения.

Машинное обучение не будет определять, какие проблемы следует решить. Если вы не согласовываете продукт с человеческой потребностью, вы просто создаёте очень мощную систему для решения очень маленькой или, возможно, несуществующей проблемы.
Если цели системы ИИ непрозрачны и понимание пользователем его роли в калибровке этой системы неясно, вы разработаете ментальную модель, которая соответствует народным теориям об ИИ, и это повлияет на доверие пользователей.
Чтобы развиваться, машинное обучение должно стать мультидисциплинарным. Это в равной мере проблема социальных систем. Машинное обучение — наука делать прогнозы на основе шаблонов и отношений, которые автоматически обнаруживаются в данных. Работа модели машинного обучения заключается в том, чтобы выяснить, насколько ошибочной может быть важность этих шаблонов, чтобы быть правильной, насколько возможно и максимально часто. Но она не выполняет эту задачу самостоятельно. Каждый аспект машинного обучения подпитывается и связан с человеческим суждением. От идеи разработки модели до источников данных, выбранных для обучения. От самих данных выборки и методов, используемых для её описания, вплоть до критериев успеха для вышеупомянутой ошибочности и правильности. Достаточно сказать, что UX-аксиома «вы не пользователь» важнее, чем когда-либо.

Три варианта дизайна, ориентированного на человека и развивающего ИИ

Принимать во внимание реальные человеческие потребности

В этом году люди сделают около триллиона фотографий, и для многих из нас это означает, что цифровая фотогалерея будет заполнена изображениями, на которые мы фактически не будем смотреть. Это хорошо работает для новоиспеченных родителей, чей ежедневный опыт полон первых моментов.

Во время создания моментов, которые ощущаются драгоценными и мимолётными, пользователи обращаются к своим смартфонам в надежде поймать и сохранить воспоминания для себя будущих. В результате они часто смотрят на мир через крошечный экран, а не взаимодействуют, используя все свои чувства.

Если вы новоиспечённый родитель, ваша галерея может сильно походить на мою. Множество удалённых фотографий со смартфонов, сделанных сериями, в попытке поймать идеальное милое выражение

Что если бы мы могли создать продукт, который помог бы нам лучше взаимодействовать с людьми, о которых мы заботимся? Что если мы действительно можем сами быть на фотографиях, а не по ту сторону камеры? Что если бы мы могли вернуться в прошлое и снять фотографии, которые мы сняли бы, не останавливаясь и не вытаскивая телефон, не запуская жестом камеру, делая снимок и нарушая момент?

И что если бы рядом с нами был фотограф, чтобы поймать больше моментов нашей жизни, таких как настоящая улыбка моего ребёнка? Устройство, фиксирующее те моменты, которые часто невозможно поймать, даже если вы всегда находитесь с камерой. Это то, что мы собираемся создать.

Направление исследования

Когда мы начали процесс, самым насущным вопросом было: если люди снимают тонны фотографий, но на самом деле не хотят возвращаться и сортировать их, как мы будем выбирать моменты для съёмки?

Именно здесь родилось основополагающее «упражнение машинного обучения, ориентированного на человека»: описать способ, которым теоретически человек в качестве эксперта может выполнить эту задачу.

Теория была двоякой. Во-первых, если человек не может выполнить задачу, то и ИИ не cможет. Во-вторых, погрузившись глубоко в методы профессионального фотографа, мы можем найти инсайт для сбора данных, маркировки и компоновки архитектуры модели.

Если человек не может выполнить задачу, то не сможет и искусственный интеллект.

Ближайшее понятие, которое пришло на ум, — свадебный фотограф, поэтому я отправился на собеседование и нанял подрядчиков. Путём проб и ошибок и не без удачи мы получили огромный опыт в виде документального кинорежиссера, фотожурналиста и фотографа изобразительных искусств. Вместе мы начали собирать отснятый командой материал и пытались ответить на вопрос: «Что делает момент незабываемым?»

Для нас важно понять количество нюансов, эстетических инстинктов и личной истории, которые мы часто принимаем как должное при оценке качества наших фотографий и видео.

Например, я смеюсь каждый раз, когда смотрю, как мой младший сын использует извилистую соломку (крайний левый снимок) или пытается убежать от моих поцелуев (в середине). И я с гордостью вспоминаю момент, когда мой старший сын прокатился на велосипеде в парке (крайний правый снимок). Потому что я помню этот день как поворотный момент, когда он обрёл уверенность кататься самостоятельно.

Создание доверия

Отправной точкой для нашей работы было предположение, что мы могли бы «показать» модели вещей, которые мы считали красивыми и интересными, и ИИ могла бы научиться находить их. У нас были беседы о глубине поля, правилах третей, драматическом освещении. Но я узнал, что мы никогда не должны недооценивать человеческую способность обладать здравым смыслом.

Правило третей — это принцип построения композиции, основанный на упрощенном правиле золотого сечения. Правило третей применяется в рисовании, фотографии и дизайне.

Эти ранние эксперименты выявили важные технические и методологические пробелы, которые помогли нам заново оценить наши предположения о том, что может реализовать продукт, а также учитывать беспрецедентный характер работы.

Мы изменили нашу парадигму с возведения машинного обучения на пьедестал до понимания, что он может учиться эффективно только при довольно упрощённых формулировках. Мы пытались учить английскому языку двухлетнего ребенка, читая ему Шекспира вместо детской книжки «Go, Dog. Go!»

Именно здесь миф о «монолите» ИИ развеялся. Идея о том, что существует какой-то особый «интеллект», который понимает все вещи и может обобщать и передавать знания из контекста в контекст. Нет. Даже не близко.

Возвращаясь к основам

Последовательность — принцип игры, за счёт которой вы пытаетесь научить чему-либо. Именно поэтому мы ждём как можно дольше, чтобы не кричать на детей, когда мы учим их читать и говорить по-английски. Орфография и произношение таких слов, как cat, bat, и sat с их предсказуемыми звуками «at», намного более последовательны!

С последовательностью приходит уверенность. Подумайте о том, как быстро и нетерпеливо большинство студентов укажут на несоответствие, если учитель предоставит два примера, один из которых окажется с ошибкой. Алгоритмы не дают такой обратной связи.

Что касается алгоритмов, всё, что они показывают, имеет равную ценность, если не указано иное. Для Clips это означало, что нам нужна не только согласованность между примерами, но и согласованность в каждом примере. Каждый отдельный кадр должен быть репрезентативным для конкретного предсказания, которое мы пытаемся научить делать ИИ. И часто это может прийти в форме обучения тому, что нужно игнорировать.

Захват

Нам нужно было обучать ИИ игнорировать то, что плохо выглядело: руки перед камерой, быстрые и шаткие движения, размытость.

Пример снимков, которые камера должна игнорировать

Мы использовали примеры, подобные приведённым выше, для обучения моделей машинного обучения распознаванию, когда камера находилась внутри кармана или чехла (сверху, слева), или когда перед объективом был палец или рука (вверху, справа).

Хотя обучение моделям игнорирования вещей не сразу было интуитивным, со временем это стало важной стратегической частью нашего дизайна. При игнорировании камерой некоторых вещей не нужно было бы тратить энергию на обработку (потому что никто не нашёл бы в этом ничего полезного). Общее качество снятых клипов значительно улучшилось.

Композиция

Нам нужно было научить модели стабилизации, резкости и синхронизации кадра. Без особого внимания модель обнаружения лица будет различать лицо на краю кадра так же, как и в его центре.

Чтобы обучить модель непрерывности объекта, важно было выделить примеры. Сравните момент, когда мой младший сын остаётся в кадре всё время (выше, слева), до момента, когда мой старший сын находится в фокусе и в кадре около 5% момента (выше, справа)

Социальные нормы

Знакомство — камень преткновения создания первых фотографий. Вы указываете камере на кого-то, и люди дают молчаливое согласие, улыбаясь или позируя. Кроме того, вы смотрите через видоискатель и составляете композицию кадра.

С помощью автономной камеры мы должны были предельно чётко понимать, кто на самом деле знаком с вами, на основе социальных сигналов, таких как количество времени, проведённого с людьми, и как часто они находятся в кадре.

Редактирование

Разнообразие и избыточность — это то, что мы считаем обыденным при съёмке фотографии. Ваш внутренний голос говорит: «Сфотографируй. Ты ничего подобного не видел!» Или: «Не стоит. У тебя достаточно снимков своих детей, расслабься». Но наша модель нуждалась в помощи.

Мы подошли к разнообразию по трём различным векторам:

Время: простое значение времени является важным сигналом для оценки.
Визуальный аспект: едва заметные или значительные изменения цвета могут многое рассказать об изменениях в окружающей среде и активности. Попытайтесь поймать моменты, которые имеют эстетические отличия.
Люди: вы в большой или небольшой группе или вы один? Понимание того, как много разных знакомых лиц вы встречаете, является важной частью ощущения, что вы не упустили важные моменты.

Я положил Clips на край книжной полки, направив камеру вниз, что обеспечило классный угол наблюдения за тем, как мои дети играют вместе. Это также означало, что я показывал камере много очень похожего контента в течение длительного времени. Избежать ненужной избыточности, не упуская слишком много моментов, было — и продолжает быть — удивительно сложной UX-задачей.

Доверие и самоэффективность

Одна из причин, по которой мы инвестировали время и силы в Clips, объяснялась тем, что нужно было продемонстрировать миру важность машинного обучения устройств и сохранения конфиденциальности, не говоря уже о его замечательных возможностях.

Например, оно использует меньше энергии, это означает, что устройства не так сильно нагреваются, и обработка пройдёт быстро и надёжно, без подключения к интернету.

Камера — очень личный объект, и мы много работали над тем, чтобы убедиться, что аппаратное обеспечение, интеллект и контент в конечном счете принадлежат вам и только вам. Вот почему всё — и я имею в виду действительно всё — остаётся у пользователя, пока он не скажет иначе.

Концептуальное бюджетирование

Ради доверия и самоэффективности мы также были очень преднамеренными в подходе к дизайну интерфейса. В начале проекта это означало, что мы работали над несколькими смешными предположениями о том, насколько «чокнутым» должен быть продукт под управлением ИИ.

Когда мы задумываемся об ориентирах технологий будущего, то предполагаем, что многие дизайнеры перейдут к опыту погружения в виртуальную среду, которую можно увидеть в таких фильмах, как «Особое мнение» (2002) и «Бегущий по лезвию» (1982).

Но представьте себе, насколько сумасшедшим было бы объяснение пользователям интерфейса из фильма «Особое мнение». Просто вытяните руку, подождите две секунды, схватите ею воздух, а затем дёрнитесь вправо, поворачивая руку против часовой стрелки. Это просто!

Почти каждый научно-фантастический интерфейс виноват в чём-то подобном. Как будто сложность модели взаимодействия должна соответствовать сложности системы, которой она управляет. Но это то место, где мы находились на ранней стадии проектирования, и мы ушли с него в значительной степени по трём причинам:

Мы показывали людям поддельный контент в явно моделируемой среде, где у них не было реальной связи с изображениями. Обратите внимание, что эта проблема не уникальна для ИИ. Это часто один из факторов, вызывающих искажение, когда вы привлекаете людей в лабораторию юзабилити.
Мы каждый день были окружены людьми, говорящими на одном языке и думающими о товарах под управлением ИИ. Мы делали ошибку, теряя контакт с контрольными ориентирами.
Мы думали, что наши новые дизайны были суперкрутыми, поэтому мы отнеслись со снисхождением, когда люди не сразу поняли их.

Графики обучаемости пользователей

Большинство продуктов имеют некоторую кривую обучения, но с дополнительными расходами на раскрутку ИИ. Особенно важна разумная когнитивная нагрузка вашего пользователя. Когда контекст использования является новым для пользователя, происходит смещение надёжности.

Когда нужно выучить много новых функций интерфейса, убедитесь, что основные случаи использования суперсовместимы. И когда функциональность продукта особенно динамична, ваш пользовательский интерфейс должен соответствовать привычным шаблонам.

Мы начали быстро уменьшать сложность интерфейса, а также сделали проще управление и знакомство с нашим экспериментальным фреймворком. Мы добавили в камеру программный видоискатель и кнопку захвата. Мы убедились в том, чтобы последнее слово было за пользователем.

Он выбирает лучший неподвижный кадр в клипе и его идеальную продолжительность. И мы показывали пользователям больше моментов, чем считали нужным. Потому что, немного подходя к ватерлинии и удаляя ненужные снимки, они лучше понимали, что именно ищет камера и что будет снимать в будущем.

Аппаратное обеспечение, интеллект и контент в конечном счете принадлежат вам и только вам.

Благодаря этому процессу мы сделали ещё один критически важный вывод для тестирования продукта под управлением ИИ: притворяйся, пока это не станет правдой. Если вы можете выбирать, то прототипирование вашего UX более эффективно с реальным контентом пользователя, чем тестирование с реальными моделями машинного обучения.

Последнее занимает невероятно много времени для создания (и гораздо менее подвижно или адаптивно, чем традиционная разработка программного обеспечения, поэтому ошибки обходятся дороже), в то время как первый вариант даёт вам подлинное понимание того, какую люди извлекут ценность и пользу из вашего (теоретического) продукта.

Пользователи просматривают свои клипы, передавая их с камеры. В крайнем левом углу пользователи выбирают, какие клипы они хотят сохранить на своём телефоне. В середине пользователи могут переключаться на «предлагаемый» вид. Справа пользователи могут определить точный кадр, который они хотят сохранить в качестве неподвижной фотографии

В контексте субъективности и персонализации совершенство просто невозможно, и оно действительно не должно быть целью. В отличие от традиционной разработки программного обеспечения, системы машинного обучения никогда не будут «без ошибок», потому что предсказание — это по определению неточная наука.

Но именно эта неточность делает машинное обучение настолько полезным! Это то, что помогает нам разрабатывать значительно более надёжные и динамичные утверждения «если», где мы можем спроектировать что-то вроде следствия «когда что-то похоже на x, делай y».

И в этом отклонении от жёстких логических правил нам также нужен был отход от традиционных форм измерения. Успех Clips — это не только сохранение, удаление, клики и редактирование (хотя это важно), это касается авторства, совместного обучения и адаптации в течении времени. Мы очень надеемся, что пользователи попробуют поиграть с Clips.

Проектируя с целью

Переориентировав традиционную парадигму искусственного интеллекта с поиска способов сделать машину умнее на изучение способов увеличения возможностей человека, мы можем разблокировать гораздо больший потенциал машинного обучения.

Оно может стать инструментом для беспрецедентных исследований и инноваций. Инструментом, помогающим нам искать шаблоны в себе и окружающем нас мире.

Как практики, ориентированные на человека, мы имеем колоссальную возможность сформировать более гуманный и инклюзивный мир совместно с ИИ, и он начинается с напоминания нами наших корней: поиск и удовлетворение реальных потребностей человека, поддержание человеческих ценностей и проектирование для улучшения, а не автоматизации.

Роль ИИ не должна заключаться в том, чтобы найти иглу в стоге сена за нас, но чтобы показать нам, сколько сена он может очистить, чтобы мы могли лучше видеть иглу.

Чтобы подробнее узнать о подходе Google к UX для ИИ, ознакомьтесь с нашей полной коллекцией статей.

#будущее #дизайн