MIT убрал датасет Tiny Images из-за расистских и оскорбительных терминов02.07.2020 15:47

После критики коллег создатели набора данных Tiny Images (80 млн изображений 32×32 пикселей) извинились и убрали датасет из открытого доступа.

Разработчики из Массачусетского технологического института и Нью-Йоркского университета убрали коллекцию в офлайн и попросили других исследователей воздержаться от использования набора данных и удалить любые существующие копии.

Новость была опубликована в понедельник в письме профессоров Массачусетского технологического института Билла Фримена и Антонио Торральбы, а также профессора Нью-Йоркского университета Роба Фергюса на сайте Лаборатории информатики и искусственного интеллекта МТИ.
Датасет Tiny Images создан в 2006 году и содержит фотографии, автоматические вырезанные из выдачи поиска по изображениям поисковых систем. Оказалось, что он содержат целый ряд расистских, сексистских и других оскорбительных ярлыков (автоматически подобраны семантической системой WordNet). Например, почти 2000 изображений помечено словом «ниггер», есть метки «подозреваемый в изнасиловании» и «растлитель малолетних».

Набор данных также содержал порнографический контент, в том числе фотографии, сделанные под женскими юбками. Присутствуют изображения половых органов с жаргонными терминами, изображения некоторых женщин помечены как «шлюхи», применяются недопустимые в современном обществе термины для чернокожих и азиатов.

Создатели набора данных в своё оправдание заявили, что датасет слишком велик, а изображения 32×32 слишком малы, что затрудняет визуальный контроль полного содержимого набора данных. По данным Google Scholar, 80 миллионов крошечных изображений цитируются более чем в 1700 научных работах.

«Предубеждения, оскорбительные и предвзятые образы и уничижительная терминология отчуждают важную часть нашего сообщества — именно тех, кого мы стараемся привлечь, — написали профессора в совместном письме. — Это также способствует вредным предубеждениям в системах искусственного интеллекта, обученных на таких данных. Кроме того, наличие таких предвзятых образов наносит ущерб усилиям по формированию культуры инклюзивности в сообществе компьютерного зрения. Это крайне прискорбно и противоречит тем ценностям, которые мы стремимся отстаивать».

Три профессора сказали, что недостатки набора данных были доведены до их сведения в аудиторской работе, опубликованной в конце прошлого месяца аспирантом Дублинского университета Абебой Бирхейн (Abeba Birhane) и аспирантом Университета Карнеги-Меллона Винаем Прабху (Vinay Uday Prabhu). Авторы говорят, что их оценка — это первая известная критика 80 миллионов крошечных изображений.

Авторы статьи и создатели набора 80 миллионов крошечных изображений сходятся во мнении, что часть проблемы исходит из автоматизированного сбора данных и автоматического подбора меток из набора данных WordNet для семантической иерархии.

В статье делается вывод о том, что крупномасштабные наборы данных изображений подрывают конфиденциальность и могут оказывать непропорционально негативное воздействие на женщин, расовые и этнические меньшинства и миноритарные общины.

Бирхейн и Прабху утверждают, что сообщество компьютерного зрения должно больше внимания уделить этическому использованию крупномасштабных наборов данных изображений сейчас, отчасти из-за растущей доступности инструментов скрапинга изображений и технологий обратного поиска изображений. Анализ крупномасштабных наборов данных изображений показывает, что это не просто вопрос данных, но культуры в академических кругах и индустрии, которая позволяет создавать крупномасштабные наборы данных без согласия участников «под видом анонимизации».

«Мы полагаем, что более глубокие проблемы коренятся в более широких структурных традициях, стимулах и дискурсе области, которая рассматривает этические проблемы в последнюю очередь. Это область, где на практике часто используется эвфемизм для обозначения отсутствия согласия», — говорится в научной статье с анализом датасетов.

Для соблюдения этических принципов авторы научной работы предлагают:

Размытие лиц людей в наборах данных
Не использовать лицензионные материалы Creative Commons
Собирать изображения с чёткого согласия участников
Включить карту аудита набора данных с крупномасштабными наборами данных изображений, по типу модельных карт, используемых Google AI, и таблиц данных для наборов данных, предложенных Microsoft Research

Нужно заметить, что оскорбительные метки обнаружены также в наборе данных ImageNet, а это самый популярный датасет в данной области. Набор данных ImageNet был представлен на выставке CVPR в 2009 году и считается самым важным для развития компьютерного зрения и машинного обучения. В то время как некоторые из самых больших наборов данных ранее насчитывали десятки тысяч изображений, ImageNet вышел сразу с более чем 14 миллионами изображений. Масштабное распознавание изображений ImageNet проходило с 2010 по 2017 год и привело к запуску целого ряда стартапов. По данным Google Scholar, датасет ImageNet цитировался почти 17 000 раз.

Создатели набора данных ImageNet обнаружили, что 1593 из 2832 категорий людей в наборе данных содержат потенциально оскорбительные ярлыки, которые, по их словам, они планируют удалить.