Имитация реальности или реальная имитация: как человек оценивает лица, созданные ИИ15.12.2023 11:00

Присутствие искусственного интеллекта в современном мире становится все более и более явным. Конечно, ИИ еще не дорос до того уровня, что описывают писатели-фантасты, но его способности растут с каждым днем. В некоторых случаях нам сложно отличить, является ли нечто результатом работы человека или все же ИИ. Ученые из Австралийского национального университета провели исследование, в котором было установлено, что люди крайне часто путают реальные лица с теми, что были сгенерированы ИИ. Данное явление ученые прозвали «гиперреализм ИИ». Как ученые пришли к такому выводу, какие черты лица больше всего сбивали с толку участников опытов, и какие выводы можно сделать из результатов исследования? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Скачок развития ИИ ознаменовал беспрецедентный социальный сдвиг. Заметное место в этом процессе занимает создание ИИ реалистичных человекоподобных лиц, что вызывает общественное беспокойство по поводу того, что ИИ может исказить восприятие истины. Лица, сгенерированные ИИ, стали широко доступны (например, this-person-does-not-exist.com) и используются как в просоциальных, так и в гнусных целях: от поиска пропавших детей («ChildGAN: Face aging and rejuvenation to find missing children») до передачи политической дезинформации через фейковые аккаунты СМИ в социальных сетях («Chinese propaganda network on Facebook used AI-generated faces»).

Лица, созданные ИИ, стали столь реалистичны, что людям сложно отличить их от настоящих. Однако, поскольку эта технология развивалась так быстро, эмпирических испытаний этого эффекта было проведено мало. Потому ученые и решили провести свое исследование, в котором они отмечают, что ИИ лица не только неотличимы от человеческих лиц, но и фактически могут восприниматься как более «человечные», чем настоящие человеческие лица. Данное явление ученые назвали «гиперреализмом ИИ».

В попытках понять, как мы воспринимаем ИИ / реальные лица, стоит в первую очередь обратится к психологии, которая обладает многолетней базой теоретических и эмпирических работ, связанных с распознаванием лиц.

Изображение №1

Например, теория пространства лиц (изображение №1; «A Unified Account of the Effects of Distinctiveness, Inversion, and Race in Face Recognition») предлагает гипотетическое многомерное пространство, в котором лица кодируются по неопределенным измерениям в зависимости от того, насколько они отличаются от среднестатистического лица, расположенного в центре. Предполагается, что человеческие лица обычно распределяются в этом пространстве таким образом, что более средние черты (для всех измерений) статистически перепредставлены.

Это смещение в сторону средних характеристик, на которых обучаются генеративные алгоритмы (например, StyleGAN2 для лиц), может быть еще более преувеличено в ИИ лицах, которые они генерируют, поскольку эти алгоритмы ориентированы на наиболее распространенные статистические свойства среди обучающих данных. Хотя конкретные размеры лицевого пространства неизвестны, относительное расположение лиц можно измерить косвенно через возникающие перцептивные атрибуты лицевого пространства, такие как усредненность лица. Таким образом, ученые предположили, что лица, сгенерированные StyleGAN2, будут воплощать атрибуты обычных лиц в большей степени, чем реальные человеческие лица.

В рассматриваемом нами сегодня труде ученые стремились исследовать потенциал гиперреализма ИИ и провести первый тест на то, понимают ли люди свои ошибки в ходе обнаружения ИИ. Если люди принимают ИИ лица за человеческие, но не уверены в своих суждениях, они могут реагировать более осторожно. Однако, если они убеждены, что их суждения верны, их ошибки могут иметь более серьезные последствия.

Дополнительно ученые хотели определить визуальные атрибуты, которые отличают ИИ от человеческих лиц, и ответить на важный вопрос: почему люди не могут распознать ИИ лица. Теория предполагает, что возникающие перцептивные атрибуты пространства лица, такие как усредненность лица, запоминаемость, привлекательность и узнаваемость, могут играть определенную роль, учитывая их важность для восприятия человеческого лица.

Результаты исследования

Изображение №2

Ученые начали с доказательства принципа, повторно проанализировав данные недавнего исследования, которое включало информацию о расе лиц («AI-synthesized faces are indistinguishable from real faces and more trustworthy»), чтобы изучить потенциал гиперреализма ИИ. Анализ показал явные доказательства гиперреализма ИИ для белых лиц, но не для небелых лиц.

На 2a показано, что белые ИИ лица оценивались как человеческие значительно чаще, чем реальные лица, MWhite-AI = 69.5% против MWhite-human = 52.2%. Напротив, не белые ИИ лица (левая часть на 2a) оценивались как человеческие примерно на уровне вероятности: Mnon-White-AI = 50.5%, что существенно не отличалось от того, как часто лица небелых людей считались человеческими, по сравнению с Mnon-White-human = 51.3%.

Любопытно то, что d' — показатель способности людей различать ИИ и человеческие лица, на который не влияет предвзятость реакции — также был значительно отрицательным для белых лиц (M = -0.59). Результат d' указывает на то, что участники действительно различали белые ИИ и человеческие лица, но в неправильном направлении, что является явным доказательством гиперреализма ИИ для белых лиц.

Эксперимент №1

Чтобы выяснить, понимают ли люди свои ошибки гиперреализма ИИ, и выяснить, что вызывает это несколько нелогичное явление, ученые попросили группу участников сообщить, насколько уверенно они себя чувствовали и какую информацию они использовали, пытаясь отличить ИИ лица от человеческих.

Окончательные данные были получены от 124 взрослых, набранных из Prolific (www.prolific.co). Участниками были белые жители США в возрасте от 18 до 50 лет, которые не жили за пределами Соединенных Штатов более 2 лет до того, как им исполнилось 18 лет, и которые сообщили об отсутствии расстройств аутистического спектра, расстройств внимания, шизофрении или серьезного неврологического заболевания.

Во время опыта было использовано 100 ИИ лиц и 100 реальных лиц. ИИ лица были созданы с помощью StyleGAN2. Человеческие лица были выбраны из набора данных Flickr-Faces-HQ, который использовался для обучения системы StyleGAN2, чтобы максимально точно соответствовать каждому из ИИ лиц (например, одного пола, позы и выражения).

Участникам сказали, что они увидят около 100 лиц, и им нужно было решить, это лицо настоящего человека или оно создано компьютером (ИИ). Решив, было ли лицо искусственным или человеческим, участники оценивали свою уверенность в каждом испытании от 0 (совсем не уверен) до 100 (полностью уверен). В пяти дополнительных испытаниях в качестве проверки внимания участники решали, было ли лицо моложе 50 лет или старше.

Наконец, чтобы изучить визуальные атрибуты, используемые участниками для определения того, были ли лица искусственными или человеческими, ученые попросили участников дать открытые ответы о том, какую информацию они использовали.

Результаты эксперимента №1

Сначала ученые рассчитали процент стимулов, оцененных как человеческие, процент ошибок и средние рейтинги достоверности для каждого участника (отдельно для ИИ и человеческих лиц). Также были рассчитаны меры обнаружения сигналов на уровне участников: d' и Meta-d'. Meta-d' сочетает в себе рейтинги уверенности с правильностью ответов для измерения метакогнитивной чувствительности — понимания участниками того, являются ли их ответы правильными или неправильными. Для анализа открытых качественных ответов использовался управляемый данными (индуктивный) тематический анализ.

На 2a показано, что гиперреализм, обнаруженный для белых ИИ лиц в повторном анализе Найтингейла и Фарида («AI-synthesized faces are indistinguishable from real faces and more trustworthy»), был полностью воспроизведен в новой выборке, что указывает на устойчивость этого эффекта.

Изображение №3

Белые ИИ лица оценивались как человеческие значительно чаще, чем лица белых людей, MAI = 65.9% против Mhuman = 51.1%. Результаты сохраняли данную тенденцию отдельно для мужских и женских лиц.

На изображении выше показаны лица, которые чаще всего оценивались как человеческие и ИИ. Примечательно, что три наиболее похожих на человека лица на самом деле были созданы ИИ.

Анализируя результаты эксперимента №1, ученые пришли к выводу, что участники, которые хуже всего распознавали ИИ лица, хуже всего понимали свои способности, вопреки прогнозу, основанному на литературе по идентификации лиц. Однако соотношение точность/уверенность различалось в зависимости от типа лица: хотя более низкие показатели ошибок при классификации человеческих лиц были связаны с более высокой уверенностью, как и прогнозировалось (2b), для ИИ лиц больше ошибок было неожиданно связано с более высокой уверенностью (2c). Это указывает на то, что тенденция к гиперреализму ИИ усугубляется чрезмерной самоуверенностью.

Чтобы изучить понимание участниками своей деятельности, свободное от предвзятости в рейтингах уверенности, ученые использовали meta-d'. Положительные значения meta-d' указывают на то, что участники понимают, являются ли их ответы правильными или неправильными, тогда как отрицательные значения meta-d' указывают на то, что участники ошибочно уверены в правильности своих ответов. Значения meta-d' участников в настоящем исследовании часто были отрицательными (59% участников), что указывает на плохое понимание.

Более того, на 2d показано, что более низкое понимание (meta-d') было связано с более низкой производительностью (d') при выполнении задачи по определению ИИ лиц или реальных лиц. Это указывает на то, что участники с самыми плохими результатами распознавания были наименее осведомлены о своих ошибках в оценке ИИ лиц.

Ученые разделили 2d на квадранты с d' = 0 и meta-d' = 0, чтобы определить группы участников с каждой комбинацией хороших и плохих результатов (d') и понимания (meta-d'). Половина участников (51%) попала в нижний левый квадрант, сочетая плохие результаты с плохим пониманием (по сравнению с ~23% с плохими результатами и хорошим пониманием; ~8% с хорошими результатами и плохим пониманием; и ~18% с хорошими результатами и хорошим пониманием).

Эти результаты не согласуются с данными из литературы по восприятию лиц, но соответствуют другим типам суждений, в которых люди могут быть очень уверенными, но ошибаться (например, когда люди неосознанно подвергаются дезинформации, но крайне уверены в ее правдивости) или переоценивают свою компетентность в какой-либо задаче, что является проявлением эффекта Даннинга-Крюгера.

Изображение №4

Выше представлена система качественного кодирования, отражающая атрибуты, которые участники использовали, когда оценивали лица как реальные или сгенерированные ИИ. Размер каждого сегмента указывает процент общего количества кодов, захваченных каждой темой. Структура состоит из 21 основной темы и 20 подтем (например, «глаза» — это подтема темы конкретных черт лица). Ответы можно было закодировать по нескольким темам, и, таким образом, каждый ответ был закодирован в среднем по 2.29 темам. Например, ответ «Если лица были чрезмерно симметричными и если их глаза выглядели фальшивыми» был закодирован в темы «симметрия», «глаза» и «искусственные». Всего к 239 ответам было применено 546 кодов.

Эксперимент №2

Феномен гиперреализма ИИ подразумевает, что между ИИ и человеческими лицами должны быть некоторые визуальные различия, которые люди неправильно интерпретируют. О том, в чем могут заключаться эти различия, известно очень мало. Авторы труда «On the realness of people who do not exist: The social processing of artificial faces» обнаружили частичный отрицательный вклад привлекательности, что согласуется с прогнозами в рассматриваемом исследовании, основанными на пространстве лиц, поскольку лица, находящиеся в центре пространства лиц (более средние лица), как правило, более привлекательны при прочих равных условиях. А в исследовании «A Study of the Human Perception of Synthetic Faces» ученые также обнаружили, что удаление фоновых пейзажей делает ИИ и человеческие лица неразличимыми. Однако в нынешнем труде фоновая информация была одинаковой для ИИ и реальных лиц, потому этот эффект тут не работал.

В эксперименте №2 ученые исследовали способность 14 атрибутов (признаков), полученных из пространства лиц, и данных из эксперимента №1 объяснить гиперреализма ИИ. Ученые также впервые проверили, можно ли использовать воспринимаемую человеком информацию для точной классификации ИИ и человеческих лиц с помощью машинного обучения. Если StyleGAN2 склонен отображать лица ближе к центру пространства лиц, лица ИИ должны восприниматься как более средние, знакомые и привлекательные, но менее запоминающиеся, чем реальные человеческие лица.

Окончательные данные были получены от 610 участников, набранных для оценки ИИ и человеческих лиц по одному из 14 атрибутов. В отличие от эксперимента №1, участникам не сообщили о присутствии ИИ лиц, и исключили тех, кто догадался о присутствии ИИ лиц (N = 44.7%). В остальном проверка участников была идентична эксперименту №1.

Таблица №1

Всего было оценено 14 признаков (таблица выше). В дополнение к четырем признакам, выведенным из теории пространства лица (отличительность/усредненность, запоминаемость, узнаваемость, привлекательность), ученые сосредоточили свой анализ на признаках, обычно упоминаемых в эксперименте №1, в результате чего было получено девять признаков. Также был включен воспринимаемый возраст.

Результаты эксперимента №2

Ученые рассчитали среднюю оценку на уровне стимула для каждого лица по каждому из 14 признаков отдельно. Затем, используя данные эксперимента №1, они рассчитали процент участников, которые считали каждое лицо человеческим. Более высокие процентные значения указывают на то, что больше участников оценили лицо как человеческое. Тип стимула (т. е. ИИ или человеческие лица) кодировался фиктивным кодом (0 = лица ИИ и 1 = человеческие лица).

Чтобы определить, какие признаки заставляют лица выглядеть реальными (даже если они были сгенерированы искусственным интеллектом), ученые построили модель множественной линейной регрессии, предсказывающую процент участников, которые оценили каждый стимул как человека на основе 14 признаков. Модель объяснила большую часть наблюдаемой дисперсии (62%) в том, как часто лица считались человеческими. Стандартизированные коэффициенты для каждого отдельного предсказателя показывают, что лица с большей вероятностью были бы оценены как человеческие, если бы они были более пропорциональными, живыми в глазах и знакомыми; и менее запоминающиеся, симметричные, привлекательные и гладкокожие (таблица ниже).

Таблица №2

Далее ученые применили модель линзы Брунсвика, чтобы показать, как каждый из 14 атрибутов способствует (неправильной) оценке лиц как человеческих (схема ниже).

Изображение №5

Построение модели линзы на уровне стимула позволило исследовать признаки как одновременные посредники, объясняющие соответствие между ИИ или человеческим статусом лиц и тем, как часто они были оценены как человеческие, тем самым различая достоверность сигналов (различия в визуальных атрибутах лиц человека и искусственного интеллекта) и использование подсказок (степень, в которой каждый признак способствует тому, что лица оцениваются как человеческие).

В этой модели тип лица был основным предиктором (ИИ = 0 против человека = 1), 14 признаков были введены как одновременные посредники, а процент участников, которые оценили каждое лицо как человеческое, был переменной результата. Всем признакам было позволено свободно коррелировать друг с другом, создавая полностью насыщенную модель, которая идеально соответствует данным. В соответствии с экспериментом №1 общий эффект показал, что ИИ лица с большей вероятностью будут восприниматься как человеческие, чем настоящие человеческие лица.

Важно отметить, что в соответствии с предсказанием теории пространства лица о том, что лица ИИ будут более средними, чем человеческие, лица ИИ были значительно более средними (менее отличительными), знакомыми, привлекательными и менее запоминающимися, чем человеческие лица. В целом гиперреализм ИИ объяснялся более значительными кумулятивными эффектами для признаков, которые использовались в неправильном направлении — пропорций лица, узнаваемости и запоминаемости — по сравнению с теми, которые используются в правильном направлении — привлекательность лица, симметрия и конгруэнтное освещение/тени. Кроме того, участники не использовали несколько достоверных сигналов, а именно: усредненность/отличительность лица, качество изображения и выразительность.

Учитывая, что люди не способны распознавать нынешние ИИ лица, обществу нужны инструменты, которые могут точно идентифицировать ИИ самозванцев. Существующие алгоритмы обнаружения ИИ ограничены конкретными базами данных (например, популярное расширение Google Chrome V7 Fake Profile Detector работает только для лиц StyleGAN). Человеческое восприятие может быть полезно для улучшения обобщаемости алгоритмов, поскольку интеграция дополнительных параметров в алгоритмы оказалась полезной и в других областях. Поэтому ученые провели первое исследование того, может ли машинное обучение использовать признаки, воспринимаемые человеком, для точной классификации ИИ и человеческих лиц.

Используя 10-кратную перекрестную проверку, ученые построили модель классификации случайного леса (mtry = 4; квадратный корень из числа предикторов, округленный до ближайшего целого числа), предсказывающую тип лица (ИИ против человека) на основе 14 выявленных признаков из эксперимента №2. Модель смогла точно классифицировать тип лица с точностью 94%. Таким образом, ИИ лица, по крайней мере те, которые созданы Style-GAN2, можно отличить от человеческих лиц на основе воспринимаемых человеком признаков с чрезвычайно высокой точностью.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые показали, что людям крайне сложно различать реальные лица от созданных искусственным интеллектом. Данный эффект был назван учеными «гиперреализм ИИ».

Ученые обнаружили, что одна из проблем гиперреализма ИИ заключается в том, что люди часто не осознают, что их обманывают. Те участники экспериментов, которые считали ИИ лица реальными, были наиболее уверенными в своем суждении. Из этого следует, что повышенная самоуверенность человека может искажать его восприятие, тем самым позволяя ИИ лицам одурачить его.

Также ученые установили, что физические отличия между ИИ лицами и реальными лицами играют важную роль в распознавании одних от других, но испытуемые неправильно их интерпретируют. Например, более непропорциональные ИИ лица оценивались как реальные, а более симметричные реальные лица назывались искусственными.

Ученые отмечают, что результаты их опытов говорят о весьма жутковатой тенденции. Столь быстрое развитие ИИ технологий, особенно используемых для генерации лиц, может иметь серьезные последствия для распространения дезинформации и кражи личных данных.

Авторы исследования считают, что технологии искусственного интеллекта не могут быть изолированы, когда только технологические компании знают, что происходит за кулисами. Необходимо обеспечить большую прозрачность в отношении искусственного интеллекта, чтобы исследователи и гражданское общество могли выявлять проблемы до того, как они нанесут вред.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5–2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5–2697v3 2.6GHz 14C 64GB DDR4 4×960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5–2430 2.2Ghz 6C 128GB DDR3 2×960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5–2650 v4 стоимостью 9000 евро за копейки?