Microsoft удалила крупнейшую в мире базу лиц MS Celeb, но та уже разошлась по интернету

mrdbnizay9d9tt7fx2zuanb3iqq.jpeg

Microsoft убрала из интернета свою базу данных на 10 миллионов лиц MS Celeb, пишет Financial Times. Фотографии под лицензией Creative Commons использовались для обучения систем распознавания лиц учёными со всего мира. К сожалению, среди них оказались военные подразделения и китайские фирмы SenseTime и Megvii, которые специализируются на разработке систем видеонаблюдения. Вероятно, это могло вызвать недовольство в высших эшелонах власти и породить обвинения в адрес IT-компании, которая якобы оказывает техническое содействие потенциальному врагу.

База данных MS Celeb вышла в 2016 году. Microsoft описывает её как крупнейший общедоступный набор данных распознавания лиц в мире, содержащий более 10 млн изображений почти 100 000 человек.
Фотографии людей использовались без согласия: их собирали в интернете из поисковых систем и видеороликов, опубликованных в соответствии с условиями лицензии Creative Commons, которая позволяет использование фотографий в научных целях.

Microsoft убрала базу данных вскоре после апрельской публикации статьи Financial Times о том, кто конкретно пользуется этими данными в неблаговидных целях. Компания сказала: «Сайт предназначен для научных целей. Он запущен сотрудником, который больше не работает с Microsoft, а теперь база удалена из публичного доступа».

После статьи FT из открытого доступа исчезли ещё два набора данных, включая Duke MTMC от университета Дьюка и набор данных Стэнфордского университета под названием Brainwash.

База Brainwash собрана из кадров камеры видеонаблюдения кафе Brainwash в Сан-Франциско. Представители Стэнфордского университета сказали, что убрали базу данных после просьбы одного из авторов исследования, для которого она использовалась.

Все три набора данных обнаружил в открытом доступе берлинский исследователь Адам Харви. На сайте Megapixels он публикует ссылки на десятки таких наборов данных, приводит детальную информацию об их составе и о том, как они используются. Например, набор данных MS Celeb использовали несколько коммерческих организаций, включая IBM, Panasonic, Alibaba, Nvidia, Hitachi, Sensetime и Megvii. Две последние — китайские поставщиками оборудования для государственной системы видеонаблюдения в Синьцзяне, где уйгуров и других мусульман содержат в лагерях для интернированных.

Исследование Харви показало, что Microsoft сама использовала набор данных для обучения алгоритмам распознавания лиц. Компания назвала набор данных MS Celeb с целью указания, что собранные фотографии — снимки общественных персон. Но на самом деле это далеко не так. Харви обнаружил, что набор данных включал многих людей, которые вряд ли ожидали себя увидеть в этой базе, в том числе журналистов, которые пишут на темы безопасности и Джули Брилл, бывшего комиссара FTC, ответственную за защиту приватности потребителей.

«Microsoft использовала термин «знаменитость», чтобы включить в базу людей, которые просто работают в интернете и представлены здесь, — говорит Харви. — Многие люди в списке даже известные критики этой самой технологии, которую Microsoft разрабатывает, используя их биометрическую информацию».

«Я ни в коем случае не публичный человек и никоим образом не отказывался от своего права на сохранение конфиденциальности, — сказал Адам Гринфилд, журналист на тему IT и информационной безопасности, которого включили в набор данных. — Мне это говорит о глубоком непонимании [компанией Microsoft], что такое конфиденциальность».

Эксперты допускают, что Microsoft нарушила европейский закон GDPR, распространяя набор данных MS Celeb после вступления в силу GDPR в прошлом году. «Вероятно, они убрали базу, потому что их юристы выразили озабоченность, что у них нет оснований для обработки данных этой категории в соответствии со статьей 9 закона GDPR, — сказал Майкл Вил, исследователь технологической политики в Институте Алана Тьюринга. — Они могут не иметь права на обработку биометрических данных в целях «уникальной идентификации физического лица»… Особенно когда набор данных начали использовать не только в академических целях, но и для коммерческих продуктов. Есть основания полагать, что люди в наборе данных не могут рассматриваться как явно и чётко согласившиеся на обнародование своих лиц».

Microsoft заявила, что не знает о каких-либо последствиях GDPR, а сайт удалён в связи с завершением исследовательского проекта.

Хотя Microsoft убрала базу данных, она по-прежнему доступна исследователям и компаниям, которые скачали её раньше. Харви говорит, что набор данных по-прежнему используется и распространяется через другие источники: «Вы не можете заставить исчезнуть набор данных. Как только вы его опубликуете и люди его скачают, он существует на жёстких дисках по всему миру, — сказал он. — Теперь он полностью отделён от любых лицензий, правил или полномочий, которыми ранее владела Microsoft. Люди публикуют его на GitHub, размещают файлы на Dropbox и Baidu Cloud, поэтому нет никакого способа помешать людям публиковать эти данные и использовать в своих целях».

© Habrahabr.ru