Модель эмпатического зрения: искусственный интеллект научился видеть наш мир и обсуждать его на естественном языке

empathyvisionmodel_revised2-005-1600x106

Microsoft представила в Японии приложение для смартфонов с чат-ботом Rinna, использующим несколько новых мощных технологий искусственного интеллекта (ИИ).

ИИ, который может наблюдать за окружающим миром и комментировать увиденное, скоро будет взаимодействовать с людьми более естественным способом и сможет участвовать в нашей повседневной жизни благодаря эффективному сочетанию в приложении для смартфонов новых технологий, проходящих испытания в Японии.

В приложение встроен социальный чат-бот Rinna, созданный японским подразделением Microsoft и пользующийся огромной популярностью в Японии. В понедельник это приложение, все еще находящееся в стадии разработки, было представлено на конференции Microsoft Tech Summit 2018 в Токио.

ИИ приложения обладает расширенными способностями зрения, слуха и речи, позволяющими распознавать объекты и говорить о них так, как это сделал бы человек. Это огромный шаг к будущему естественному взаимодействию между ИИ и людьми. В основе приложения лежит «модель эмпатического зрения» (Empathy Vision Model), сочетающая в себе традиционные интеллектуальные технологии распознавания изображений и эмоциональные ответы.

С помощью этой технологии Rinna рассматривает окружение через камеру смартфона и может не только распознавать объекты и людей, но и вслух описывать и комментировать увиденное в реальном времени. Используя технологии обработки естественного языка, распознавания и синтеза речи, разработанные учеными из Microsoft Research, Rinna может вести с пользователем смартфона естественный диалог.

«Человек может ходить со смартфоном в руке или в нагрудном кармане. Если камера включена, Rinna будет видеть тех же людей, те же сцены и объекты, что и пользователь, и сможет разговаривать обо всем этом», — говорит президент Microsoft Japan Такуя Хирано.

В отличие от других интеллектуальных моделей зрения, Rinna описывает свои эмоции и впечатления от увиденного, а не просто перечисляет названия, формы и цвета объектов, которые видит и распознает. Rinna может смотреть на мир из смартфона с той же точки зрения, что и пользователь, и умеет говорить с ним об этом.

Чтобы продемонстрировать разницу, рассмотрим заглавную картинку:

Традиционные технологии машинного зрения обычно реагируют так: «Я вижу людей. Я вижу собаку. Я вижу машину».

Rinna же, используя модель эмпатического зрения, может сказать: «Какая милая семья! Похоже, они весело проводят выходные. Ой, там машина! Осторожно!»

Кроме модели эмпатического зрения, генерирующей в реальном времени эмоциональные реакции на то, что видит ИИ, приложение с Rinna имеет и другие передовые функции, включая «полнодуплексный» режим. Это позволяет чат-боту вести с человеком естественные диалоги, заранее понимая, что собеседник может сказать дальше, — как это делают люди в телефонном разговоре.

Благодаря этому Rinna может принимать решения о том, как и когда отвечать собеседнику. Эта способность естественна для человека, но не для чат-ботов. Она отличается от «полудуплексного» режима, который больше похож на переговоры по рации, когда в каждый момент времени может говорить только одна сторона. В полнодуплексном режиме уменьшается неестественная задержка между репликами, из-за которой общение человека с чат-ботом может выглядеть неловким или натянутым.

Приложение с Rinna также имеет функцию «эмпатического чата» (Empathy Chat), которая помогает искусственному интеллекту мыслить независимо и поддерживать беседу с пользователем как можно дольше. Другими словами, ИИ выбирает и использует те ответы, которые с большей вероятностью заинтересуют человека в продолжении разговора.

Приложение все еще находится на стадии разработки, и дата его официального выпуска пока неизвестна. Однако для официальной учетной записи Rinna LINE в Японии уже доступна функция голосового чата — Voice Chat with Rinna.

©  Microsoft