Глупые мозги, скрытые эмоции, коварные алгоритмы: эволюция распознавания лиц
Древние египтяне знали толк в вивисекции и могли на ощупь отличить печень от почки. Пеленая с утра до вечера мумии и занимаясь врачеванием (от трепанации до удаления опухолей), поневоле научишься разбираться в анатомии.
Богатство анатомических подробностей с лихвой компенсировалось неразберихой с пониманием функции органов. Жрецы, врачи и простой люд смело помещали разум в сердце, а мозгу отводили роль производителя слизи для носа.
Спустя 4 тыс. лет трудно позволить себе смеяться над феллахами и фараонами — наши компьютеры и алгоритмы сбора данных выглядят круче, чем папирусные свитки, а мозг все так же загадочно производит не пойми что.
Вот и в данной статье предполагалось рассказать о том, что алгоритмы распознавания эмоций достигли скорости зеркальных нейронов в интерпретации сигналов собеседника, как вдруг выяснилось, что нервные клетки стали не тем, чем кажутся.
Ошибки принятия решений
В детстве ребенок следит за лицами родителей и учится воспроизводить улыбку, гнев, самодовольство и другие эмоции, чтобы на протяжении всей жизни в разных ситуациях улыбаться, хмуриться, гневаться — именно так, как это делали его близкие.
Многие исследователи считают, что имитация эмоций строится системой зеркальных нейронов. Однако некоторые учёные выражают скептицизм по поводу данной теории: мы еще не понимаем функции всех клеток мозга.
Модель работы мозга стоит на зыбкой почве гипотез. Сомневаться не приходится только в одном: «прошивка» серого вещества от рождения содержит фичи и баги, или, что вернее, особенности, влияющие на поведение.
Зеркальные или другие нейроны отвечают за имитационный ответ, эта система работает только на базовом уровне распознавания простейших намерений и действий. Этого достаточно для ребенка, но чертовски мало для взрослого человека.
Мы знаем, что эмоции во многом зависят от приобретённого опыта взаимодействия человека с его родной культурой. Никто не посчитает вас психопатом, если среди веселых людей вы будете улыбаться, чувствуя боль, поскольку во взрослой жизни эмоции используются в качестве средства для адаптации к условиям существования.
Мы не знаем, что на самом деле думает другой человек. Строить предположения легко: он улыбается, значит ему весело. Разум имеет врожденное свойство возводить воздушные замки непротиворечивых картин происходящего.
Стоит только попытаться определить, насколько имеющиеся предположения соответствуют истине, как зыбкая почва гипотез придет в движение: улыбка — грусть, хмурость — счастье, дрожание век — удовольствие.
Немецкий психиатр Франц Карл Мюллер-Лайер в 1889 г. показал геометрически-оптическую иллюзию, связанную с искажением восприятия линий и фигур. Иллюзия заключается в том, что отрезок, обрамленный наконечниками, обращенными наружу, кажется короче отрезка, обрамленного «хвостиками». На деле же длина обоих отрезков одинакова.
Психиатр также обратил внимание на то, что созерцатель иллюзии, даже измерив линии и выслушав объяснение неврологической подоплёки восприятия изображения, продолжает считать одну линию короче другой. Интересно также, что данная иллюзия не для всех выглядит одинаково — есть менее восприимчивые к ней люди.
Психолог Даниэль Канеман утверждает, что наш медлительный аналитический ум распознает подвох Мюллера-Лайера, но вторая часть разума, отвечающая за когнитивный рефлекс, автоматически и почти мгновенно срабатывает в ответ на возникающий раздражитель, и выносит ошибочные суждения.
Когнитивная ошибка — не просто ошибка. Можно понять и признать, что при разглядывании оптической иллюзии глазам нельзя доверять, но общение с реальными людьми подобно путешествию по запутанному лабиринту.
Ещё в 1906 г. социолог Уильям Самнер провозглашал универсальность естественного отбора и борьбы за существование, перенося принципы существования животных на человеческое общество. По его мнению, объединенные в группы люди возвышают свою собственную группу, отказываясь анализировать факты, угрожающие целостности сообщества.
Психолог Ричард Нисбетт в статье «Telling more than we can know: Verbal reports on mental processes» демонстрирует нежелание людей верить статистическим и другим общепринятым данным, которые не согласуются с их существующими убеждениями.
Магия больших чисел
Посмотрите это видео и проследите, как меняется выражение лица актера.
Ум быстро «навешивает ярлыки» и строит предположения в условиях недостаточности данных, что ведет к парадоксальным эффектам, хорошо заметным на примере опыта, проведенного режиссёром Львом Кулешовым.
В 1929 г. он снял крупным планом актера, наполненную супом тарелку, ребёнка в гробу, молодую девушку на диване. Затем пленку с планом актера разрезали на три части и склеили отдельно с кадрами, на которых показаны тарелка с супом, ребёнок и девушка.
Независимо друг от друга зрители приходят к выводу, что на первом фрагменте герой хочет есть, на втором — опечален смертью ребенка, на третьем — очарован лежащей на диване девушкой.
В действительности же выражение лица актера во всех случаях не меняется.
А если бы вы увидели сотню кадров, подвох был бы раскрыт?
Основываясь на данных о статистической достоверности истинности невербального поведения в больших группах людей, психолог Пол Экман создал комплексный инструмент для объективного измерения движений лица — «систему кодирования лицевых движений».
Он придерживается мнения, что искусственные нейронные сети могут быть использованы для автоматического анализа выражений лица людей. Несмотря на серьезную критику (разработанная Экманом программа для службы безопасности аэропорта не прошла контролируемых испытаний), зерно здравого смысла в этих рассуждениях есть.
Глядя на одного улыбающегося человека можно предположить, что он обманывает, и на самом деле задумал недоброе. Но если вы (или камера) видите сотню улыбающихся людей, то, скорее всего, большинству из них действительно весело — например, они смотрят выступление зажигательного стендап-комика.
На примере больших чисел не так важно, что некоторые люди умеют настолько ловко манипулировать эмоциями, что даже профессор Экман будет одурачен. Выражаясь словами эксперта по рискам Нассима Талеба, антихрупкость системы значительно возрастает, когда субъектом наблюдения становится холодная беспристрастная камера.
Да, мы не знаем, как распознать ложь по лицу — с искусственным интеллектом или без него. Но мы прекрасно понимаем, как определить уровень счастья для сотни и более людей.
Распознавание эмоций для бизнеса
Наиболее простой способ определения эмоций по изображению лица основан на классификации ключевых точек, координаты которых можно получить, используя различные алгоритмы. Обычно размечают несколько десятков точек, привязывая их к положению бровей, глаз, губ, носа, челюсти, что позволяет захватить мимику.
Оценка эмоционального фона с использованием машинных алгоритмов уже сейчас помогает ритейлерам максимально интегрировать онлайн в офлайн. Технология позволяет оценить эффективность рекламных и маркетинговых кампаний, определить качество обслуживания покупателей и сервиса, а также выявить аномальное поведение людей.
С помощью алгоритмов можно отслеживать эмоциональное состояние сотрудников в офисе (офис с грустными людьми — это офис слабой мотивации, уныния и тлена) и «индекс счастья» сотрудников и клиентов на входе и выходе.
Альфа-Банк в нескольких отделениях запустил пилотный проект по анализированию эмоций клиентов в режиме реального времени. Алгоритмы строят интегральный показатель удовлетворенности клиентов, выявляют тренды изменения эмоционального восприятия посещения отделения, дают общую оценку визита.
В Microsoft рассказали о тестировании системы для анализа эмоционального состояния зрителей в кинотеатре (объективная оценка качества фильма в режиме реального времени), а также для определения победителя в номинации «Приз зрительских симпатий» на конкурсе Imagine Cup (победу одержала команда, на чье выступление зрители реагировали наиболее позитивно).
Всё вышеперечисленное — только начало совершенно новой эпохи. В Университете штата Северная Каролина во время прохождения образовательных курсов лица студентов снимала камера, видео с которой анализировала система компьютерного зрения, распознающая эмоции. На основании полученных данных преподаватели модифицировали стратегию обучения.
В учебном процессе вообще недостаточно внимания уделяется оценке эмоций. А ведь можно оценивать качество преподавания, вовлеченность ученика, выявлять отрицательные эмоции, и на основе полученной информации планировать образовательный процесс.
Face Recognition Ivideon: демография и эмоции
Теперь и в нашей системе появился отчёт по эмоциям.
На карточках событий детекции лиц появилось отдельное поле «Эмоция», а на вкладке «Отчёты» в разделе «Лица» доступен новый тип отчётов — по часам и по дням:
Есть возможность выгрузить исходные данные всех детекций и на их основе сформировать собственные отчёты.
До недавнего времени все системы распознавания эмоций действовали на уровне экспериментальных проектов, которые тестировались с осторожностью. Стоимость таких пилотов была весьма высока.
Мы хотим сделать аналитику частью привычного мира сервисов и устройств, поэтому с сегодняшнего дня «эмоции» доступны всем клиентам Ivideon. Мы не вводим специальный тарифный план, не предоставляем специальных камер и всячески нивелируем все возможные барьеры. Тарифы остаются неизменны, подключить анализ эмоций вместе с распознаванием лиц может каждый за 1 700 руб. в месяц.
Сервис представлен в личном кабинете пользователя. А на промо-странице мы собрали ещё больше интересных фактов о системе распознавания лиц Ivideon.