Amazon MTurk и Emotion Miner: краудсорсинг, большие данные, эмоциональные технологии
Давайте зададимся вопросом: в какой мере краудсорсинговые инструменты востребованы в сфере эмоциональных (и нейрокогнитивных) технологий? Каким образом можно собирать, размечать и предварительно обрабатывать большие объемы данных, опираясь на ресурсы толпы? В качестве показательных кейсов обсудим платформу Amazon MTurk и, в приложении к эмоциональной проблематике, проект лаборатории Neurodata Lab — Emotion Miner.
Теоретические вводные (можно пропустить)
Общим местом в последние десятилетия стало упоминание о том, что в современном — глобализированном — мире сложился и развивается новый сетевой социум, до определённой степени сочленяемый с концепцией «разжиженного общества» или «текучей современности», если воспользоваться знаменитой формулировкой британского социолога Зигмунта Баумана.
Системный, множественный, синхронный характер происходящих на наших глазах изменений создает критическую массу феноменов (о чем бы ни шла речь на практике — от криптовалют и дополненной реальности до «шеринговых» инициатив и больших данных) разной степени длительности и глубины проникновения, в совокупности смещающих технологическую парадигму (в значении Куна) к принципиально новым горизонтам. Даже к иной матрице, если рассуждать более комплексно, антропологически. Если сеть становится определяющим способом организации и метафорой жизни, то значит жизнь «переползает» в сеть. Причем на нескольких уровнях параллельно: профессиональном, частном, интеллектуальном…и эмоциональном — не в последнюю очередь.
Для бизнеса, в сердцевине которого — инновационные концепции и технологические решения, а цель — анализ и интерпретация человека как мыслящего, действующего и, прежде всего, чувствующего, субъекта, являющегося к тому же потребителем товаров и услуг, миграция капиталов, ресурсов, инструментов по генерации идей и производству стоимости, рабочих мест наконец в интернет — источник новых возможностей, которыми не стоит пренебрегать. Унификация, постепенное внедрение разделяемых всеми норм и стандартов — также помогают выстраивать долгосрочные стратегии. И экспериментировать с инструментами и подходами к решению стоящих задач.
Краудсорсинг давно пришел и в сферу IT и высоких технологий, опирающихся на науку о данных, искусственный интеллект, нейросетевые разработки, глубокое обучение и компьютерное зрение. Популярность, авторитет и публичное внимание к площадке Kaggle (в составе Alphabet Inc.) и иным «кэггло-подобным» инициативам — наиболее яркий пример, имеющий значение как в контексте учебных и игровых, так и серьезных исследовательских и бизнес-проектов. Не обошел стороной краудсорсинг и направление эмоциональных (и поведенческих) технологий.
Напомним некоторые нюансы. Эмоциональные вычисления (affective computing) и системы детекции и распознавания эмоций (EDRS — Emotion detection and recognition systems) представляют собой составную и немаловажную часть глобальной индустрии больших данных и технологий искусственного интеллекта. Это молодая, активно растущая суботрасль (с оценками рынка от $6 млрд. в 2016 году до порядка $32 млрд. к 2022 году со стабильным прогнозом), развивающаяся в интенсивном темпе и постепенно формирующая собственную экосистему теоретических воззрений, концептов и технологических продуктов — Emotion AI (иначе говоря, эмоциональный искусственный интеллект). В ней к настоящему моменту уже задействованы как корпорации (Facebook, Apple, Microsoft, IBM и др.), так и частные компании — «старые» игроки, вышедшие на рынок в начале 2010-х гг. (или ранее, как, положим Beyond Verbal Communications) и до сих пор задающие его ритм (например, Affectiva, Eyeris, Noldus или Sightcorp).
Мы говорим о направлении чрезвычайно ресурсо- и наукоемком, сосредоточенном на анализе эмоций, физиологических параметров и поведенческих паттернов, причем как в статическом режиме (через анализ изображений — фотографий, фреймов и пр.), так и динамически (изучается аудио-видеопоток в различных его формах — от скайпа и youtube до телевизионного и сетевого контента и роликов, снимаемых на обычные камеры смартфонов).
В случае Neurodata Lab при упоминании о максимально точных алгоритмах детекции и распознавания подразумевается принципиально мультимодальный подход, когда необходимые для комплексного анализа данные извлекаются из множества каналов синхронно: микроэкспрессии лица, движения глаз, голос в совокупности его характеристик, язык тела, движения, жестикуляция, подкожный кровоток, физиологические и поведенческие нюансы. Все они проявляются в динамике: в моменты коммуникаций человека с людьми, с окружающим миром.
При детекции и распознавании эмоций важно учитывать, что человеческие эмоции — очень вариативная, несколько ускользающая сущность, которая зачастую меняется от человека к человеку, от социума к социуму, есть этнические, возрастные, гендерные, социокультурные различия. Заявлять об абсолютной универсальности эмоций, — при том, что идет непрестанное смешивание и усреднение, тонкая настройка мира под более-менее общие лекала, — затруднительно. Чтобы выявить закономерности, нужно обучать алгоритмы на огромных выборках качественных данных.
Соответственно, чтобы собрать гигантские объемы неструктурированной, необработанной, «сырой» информации, а затем кластеризовывать её, извлекать требуемые признаки (features), пригодные для обучения нейросетей, без обращения к краудсорсинговым инструментам и коммьюнити привлеченных дистанционных специалистов не обойтись.
Amazon MTurk: характеристики и особенности
Безусловно, наиболее известной, брендовой и «продвинутой» краудсорсинговой площадкой — платформой для микротаскинга — является Amazon Mechanical Turk (далее MTurk). Показателем её успешности — помимо совокупного числа участников и параллельно ведущихся проектов — можно счесть тот факт, что она не только используется для научных исследований, но и сама периодически выступает их объектом (например, мы сейчас о ней поговорим).
Итак, если обратиться на мгновение к естественным и когнитивным наукам, какие типы кейсов и задач «выкидываются» на MTurk? Их несколько:
- «Экономические игры» — т.н. социальные дилеммы и дилеммы заключенного;
- «Креативность толпы» — написание историй, сценариев и пр.;
- «Полевые исследования» — например, участников просят присылать фотографии домашних термостатов, что позволяет отслеживать корректность показателей и правильность настроек;
- «Тесты на детское внимание» — при просмотре детьми, положим, видеоклипов, когда веб-камеры фиксируют в режиме реального времени движения глаз, «остановки» и «переключения»;
- т.н. «Трансактивные толпы» — так, участники MTurk предоставили собственные когнитивные переоценки в ответ на негативные мысли других работников: было даже разработано приложение, позволяющее людям с нарушениями зрения загружать изображения и получать почти в режиме реального времени описания их содержимого, что, очевидно, содержит четкий социальный посыл;
- «Тайминг и дневники» — тут, например, участников просили делать пометки о приеме алкоголя, распределении дел или осуществляемой работе, что позволяет собирать данные в более длительном срезе (longitudinal research), не ограничиваясь периодом физического присутствия участника в лаборатории, и анализировать, положим, степень продуктивности пространственного внимания, привычки и т.п.;
- «Толпа как сообщество научных ассистентов» — в случае статистически обширной выборки люди, как оказалось, часто формулируют суждения, эквивалентные или превосходящие оценки экспертов. Например, MTurk был использован для изучения идеологии высказываний из массива политических текстов: было обнаружено, что 15 участников производят оценки с качеством, соразмерным пяти кандидатам PhD по политологии. Важно отметить, что толпа может быстро поставлять данные: удаленные участники обработали содержание 22 000 предложений менее чем за 5 часов и всего за 360 долларов.
Не менее примечательна и статистика MTurk:
- подавляющее большинство участников — американцы и индусы; для сравнения европейцы больше склонны работать на других площадках (Prolific и Clickworker), жители Юго-Восточной Азии предпочитают Microworkers, а японцы — собственную национальную площадку CrowdWorks;
- доминирующий язык коммуникаций — английский;
- американские участники не сводятся исключительно к студентам колледжей, представителям свободных профессий или социально необеспеченным слоям, однако их выборка в целом не репрезентативна относительно всего населения США;
- избыток присутствия американцев европейского и азиатского происхождения, минимум — афроамериканцев и выходцев из стран Латинской Америки;
- как ни странно, но в гендерном срезе доминируют мужчины;
- выборка дистанционных работников отличается молодостью (до 35 лет), лучшим образованием (университетским), меньшей религиозностью, либеральными политическими взглядами, но и характеризуется временной/устойчивой профессиональной незанятостью, более низким уровнем дохода;
- участники проектов, как правило, отличаются целеустремленностью, исполнительностью, быстротой реакций и ярко выраженными потребностями к познанию, что иногда (повторим, это не частотно) компенсируется интроверсией, социальным беспокойством (social anxiety), более слабой резистентностью к физическому и психологическому дискомфорту, определенным уровнем невротизма и чертами, присущими расстройствам аутистического спектра (РАС) в легкой форме.
Амазон утверждает, что на MTurk зарегистрировано более 500 тысяч работников, но активная их часть несоизмеримо меньше. Пул участников, пригодных для исследовательских проектов, нередко более продолжительных и сложных, еще уже — это считается нормальным, хотя и влечет за собой исчерпание коммьюнити (обновляемого и пополняемого — взамен ушедших — примерно раз в семь месяцев, но некоторые остаются там на несколько лет), открытого к типовой научной проблематике и специфическим требованиям лабораторий и центров компетенций. Вместе с тем многие участники воспринимают MTurk как полноценную работу и соглашаются тратить n часов в неделю на заполнение анкет и опросников. Участник MTurk в среднем сообщает о вовлеченности примерно в 160 академических исследований за отчетный месяц и о желании работать больше, если представится такая возможность. Около 60% участников общаются на форумах, но лишь 10% имели опыт прямого контакта с другими работниками площадки, даже если имеется в виду один и тот же проект. Таковы факты.
Emotion Miner: от домашнего проекта к полноценной платформе
Вероятно, уместным будет кратко осветить — в качестве альтернативного примера — наш собственный опыт интеграции краудсорсинга именно в эмоциональные и поведенческие исследования. Пристально изучив все релевантные площадки для микротаскинга и обработки данных (в их числе MTurk и CrowdSource) и придя к выводу о том, что их предзаданный функционал не вполне нас удовлетворяет, мы приняли решение реализовать проект самостоятельно.
Итак, что из себя представляет Emotion Miner сегодня? Онлайн сейчас представлена минимально необходимая версия для ПК и Facebook-браузера, многофункциональная платформа будет доступна к весне 2018 г.
Что позволяет делать сайт в нынешнем его виде:
- Размещать аудио-видео файлы, предварительно извлеченные из любого доступного контента (ток-шоу, дебаты, монологи, интервью, публичные выступления, презентации и т.д.), отсортированные, нарезанные и разбитые на короткие сцены (хронометраж — до 5 сек — может меняться) штатными профессиональными аннотаторами, либо «подцеплять» более длительные оригинальные записи из сторонних каналов и источников, конечно с учетом юридически обязывающих моментов и прав владельцев контента;
- Осуществлять множественную разметку (multiple annotation) упомянутых видеофрагментов руками сотен и тысяч сторонних аннотаторов, каждому из которых, как правило, не только интересно принять участие в инициативе такого рода с финансовой точки зрения (участие оплачивается), но и хочется «прокачать» свои изначальные навыки по распознаванию эмоций.
Структурно и стилистически работа такого типа оптимально адаптируется даже не столько к привычным формам фриланса/краудсорсинга, сколько к контексту и психологии digital nomads — «цифровых кочевников» XXI века, чей повседневный труд неотделим от мобильности, причем не только физической, но и интеллектуальной.
В нашем проекте в роли аннотатора может выступить любой совершеннолетний пользователь, владеющий английским языком, при условии его соответствия критериям участия, а также условиям и правилам, изложенным в оферте, которая опубликована на сайте.
Несколько цифр для более объемного представления о предмете. На нашей платформе более 16 тысяч (постоянно растущее коммьюнити) зарегистрированных и проверенных аннотаторов. База данных в нашем распоряжении — десятки миллионов согласованных фрагментов по огромному эмоциональному спектру (точнее речь идет о классификационной модели, включающей базовые эмоции и сложные эмоциональные и ментальные состояния, а равно социально-поведенческие паттерны и физиологию, с которой всё на порядок сложнее, поскольку здесь требуется вдобавок применять более изощренные механизмы компьютерного зрения и т.д.).
Пользовательская география впечатляет: лидирующие позиции у стран АТР (Индия, Малайзия, Филиппины и пр.), США и Канады, Европы и Латинской Америки, с некоторой долей Африки (Кения, ЮАР, Нигерия). Мы собираем всю доступную статистику (и опубликуем её отдельно), чтобы платформа в финальной конфигурации соответствовал ожиданиям и потребностям «дистанционных сотрудников», кем бы они ни были и откуда бы к нам ни пришли. В каналах для привлечения тоже нет недостатка: от групп в Facebook и специализированных форумов до сайтов по поиску удаленной работы и точечной Google-рекламы.
Проект предусматривает:
- эффективный алгоритм обучения: туториалы и возможность просмотра записей целиком, их контекстуализация;
- тестирование: обязательный для прохождения тест на знание английского языка;
- выполнение участниками задач разного уровня сложности: заложена лестница тасков с усложнением от шага к шагу;
- интерактивный контроль процессов: коммуникации с аннотаторами в режиме реального времени и отлаженный менеджмент качества (команда проекта оказывает практическую поддержку аннотаторам, у нас англоязычная support team 24/7).
В отличие от MTurk мы делаем ставку не столько на масштаб и всеобщность, сколько на углубленное изучение и экспертизу в нашей индустрии, оказывающейся на перекрестке многих дисциплин.
Планы и перспективы
Релиз полноценной платформы в 2018 году с мобильной версией и приложениями (IOS/Android). Диверсификация контента (видео, аудио, изображения, текст), языков (помимо английского и русского актуальны и иные), задач как таковых (не фокусируясь исключительно на эмоциях и поведении, но сдвигаясь и к иным аспектам ML/CV по запросу партнеров; например, исследования в области синтеза и нейроредактирования лиц нередко упираются в «обучающие данные»), обкатывание всей необходимой для этого инфраструктуры.
Мы открыты к научным коллаборациям и предлагаем коллегам — в частности, российским лабораториям и кафедрам — использовать Emotion Miner в своей работе в рамках двустороннего сотрудничества.
Готовится к апробации и хабовый подход на основе кооперации Neurodata Lab с партнерскими инвестиционными фондами: платформа, упакованная в продукт, интересна как стартапам, так и корпоративным игрокам, чьи нужды и запросы часто носят прагматический, бизнес-характер, вне прямой связи с фундаментальной наукой, что, впрочем, не менее интересно.
Близкородственной — в составе единого пакета — будет и платформа Datacombats — для проведения соревнований и онлайн-хакатонов как в среде DS/ML, так и в кругу нейрокогнитивистов.
У нас довольно много идей, которые хочется воплотить в жизнь. Разумеется, проект, интерактивный по своей сути, будет масштабироваться при наличии поддержки, активного участия и энтузиазма внешнего сообщества, разделяющего с нами важнейший постулат: общий искусственный интеллект (AGI, Artificial General Intelligence), о котором так много пишут, едва ли состоится без искусственного интеллекта эмоционального (Emotion AI), по крайней мере пока главной движущей и инициирующей силой мира повседневности, бизнеса и технологий остается человек.
Человек эмоциональный: Homo Sentiens as is.