«На чём корпорации вертели вашу приватность», Артур Хачуян (Tazeros Global)

День защиты персональных данных, Минск, 2019 год. Организатор: правозащитная организация Human Constanta.

Ведущий (далее — В):  — Артур Хачуян занимается… Можно сказать «на тёмной стороне» в контексте нашей конференции?

Артур Хачуян (далее — АХ):  — На стороне корпораций — да.

В:  — Он собирает ваши данные, продаёт их корпорациям.

АХ:  — На самом деле нет…

В:  — И он как раз расскажет, как корпорации могут использовать ваши данные, что происходит с данными, когда они попадают в онлайн. Он не будет, наверное, рассказывать, что с этим делать. Мы подумаем дальше…

gdcabagtkbv-yubvkwe65z_8c88.jpeg

АХ:  — Расскажу, расскажу. На самом деле долго рассказывать не буду, но на предыдущем мероприятии мне представили человека, которому «Фейсбук» даже аккаунт собаки заблокировал.
Всем привет! Меня зовут Артур. Я действительно занимаюсь обработкой и сбором данных. Конечно же, я не продают никому никакие персональные данные в открытом доступе. Шучу. Моя сфера деятельности — это извлечение знаний из данных, находящихся в открытых источниках. Когда что-то юридически является не персональными данными, но из этого можно извлечь знания и сделать их такими же по значимости, как если бы эти данные были получены из персональных данных. Ничего на самом деле страшного рассказывать не буду. Здесь, правда, про Россию, но про Белоруссию у меня тоже есть цифры.

9ykpioccjeu9idvjvchj9rgtmi8.jpeg

Каковы реальные масштабы?


Буквально позавчера я был в Москве в одной из руководящих, правящих партий (не буду говорить в какой), и мы обсуждали внедрение какого-то проекта. И значит, IT-директор этой партии встаёт и говорит: «Вот вы говорили, — числа и так далее, — знаете, мне 2-е управление ФСБ подготовило тут записку, где написано, что россиян в социальных сетях 24 миллиона человека. А вы говорите — 120 с чем-то. У нас вообще-то более тридцати [миллионов] интернетом не пользуются». Я говорю: «Да? Ну, окей».

bwjjenr_l58n8npqlanewwws-ta.jpeg

Люди на самом деле не осознают масштаб. Это необязательно государственные органы, которые до конца, наверное, не понимают, как интернет работает, но и на самом деле моя мама, например. Она только сейчас начала понимать, что карточку в «Перекрёстке» ей дают не просто так, не за жалкие скидки, которые этот «Перекрёсток» предлагает, а за то, что потом её данные используют в ОФД, покупках, прогнозных моделях и так далее.

В общем, жителей вот столько, и о стольких есть информация в открытых источниках. О ком-то известна только фамилия, о ком-то известно всё, вплоть до порно, которое он лайкает (я всегда про это шучу, но это действительно так); и всевозможная информация: как часто люди путешествуют, с кем встречаются, какие покупки делают, с кем живут, как перемещаются — много всякой информации, которую могут использовать плохие, не очень плохие и хорошие ребята (я даже не знаю, какую шкалу сейчас придумать, но тем не менее).

Есть соцсети, которые, естественно, являются гигантским набором открытых данных, играя на слабости людей, которые вроде как кричат о приватности. А на самом деле так: если вы представите себе график за последние 5 лет — уровень истерии по поводу персональных данных растёт, но при этом количество закрытых аккаунтов в соцсетях снижается из года в год. Может быть, выводы из этого делать не совсем правильно, но: первое, что останавливает любую компанию, которая собирает данные — это тупо закрытый аккаунт в социальных сетях, потому что мнение человека внутри своего закрытого аккаунта, если у него не 100 тысяч подписчиков, оно на самом деле не очень интересно для какого-то анализа;, но бывают и такие случаи.

f4ptwxxbfl_ufxo4sqz9enmwhxa.jpeg

Откуда берут информацию о нас?


Когда-нибудь к вам стучались ваши друзья старые школьные, с которыми вы давно не общались, а потом этот аккаунт исчезал? Есть такое среди плохих ребят, которые собирают телефоны: они анализируют друзей (а список друзей почти всегда открыт, даже если человек закрывает свой профиль, либо список друзей можно восстановить «в обратную сторону», собрав всех остальных пользователей), берут какого-нибудь неактивного вашего друга, делают копию его странички, стучатся к вам в друзья, вы его добавляете и через две секунды аккаунт удаляется;, но при этом копия вашей странички осталась. Так, собственно, делали ребята недавно, когда 68 миллионов профилей из «Фейсбука» улетели куда-то — они примерно так же ко всем в друзья добавлялись, копировали эту информацию, даже кому-то писали в личные сообщения, что-то делали…

Соцсети — огромный источник информации, практически в 80% случаев информация берётся о каком-то конкретном человеке не напрямую, а из ближайшего окружения — это всевозможные косвенные знания, признаки (у нас это называется «алгоритм «Злой бывшей»), потому что одна моя знакомая подтолкнула меня на эту абсолютно гениальную мысль. Она никогда не следила за своим парнем — она всегда следила за пятью его друзьями и всегда знала, где он находится. Это на самом деле повод целую научную статью написать.

Есть огромное количество ботов, которые делают тоже всякие хорошие и нехорошие вещи. Есть безобидные, которые тупо подписываются на вас, чтобы потом вам косметику рекламировать;, а есть серьёзные сетки, которые пытаются мнение своё навязать, особенно перед выборами. Не знаю, как в Белоруссии, а вот в Москве перед муниципальными выборами у меня почему-то появилось огромное количество друзей каких-то непонятных, причём каждый за разного кандидата агитирует, то есть они абсолютно не анализируют контент, который я потребляю — они просто пытаются навязать какую-то непонятную реформу, с учётом того, что я в Москве вообще не прописан и голосовать не пойду.

klqymtxdorhq6qge_-3zqax2uru.jpeg

Помойка — источник опасной информации


Плюс, есть «Тор», который не то чтобы недооценивают — все считают, что туда нужно зайти только, чтобы купить наркотики или узнать, как собирается оружие. Но на самом деле там есть очень много источников данных. Они практически все незаконные (такие, околозаконные), потому что кто-то мог на каком-то хакерском сайте взломать базу авиаперевозчиков и выкинуть туда. Юридически вы эти данные использовать не можете, но если вы получите оттуда какое-то знание (как в американском суде), — например, запись аудиоразговора, сделанную без ордера, вы не может использовать, но знания, которые вы из этой аудиозаписи получили, вы уже не забудете, — и здесь примерно то же самое.

Это на самом деле очень опасная штука, поэтому я всегда шучу, но это правда. Я всегда заказываю еду всегда в соседний дом, потому что «Деливери Клаб» очень часто ломают, и у него реально есть такие проблемы. А недавно я очень удивился: заказывал продукты, и на коробке, которую относил на мусорку, наклеен стикер, на котором написано — «Артур Хачуян», номер телефона, адрес квартиры, код от домофона и e-mail. Мы даже на самом деле пытались договориться с московским муниципалитетом, чтобы дали доступ на помойку: в общем, приехать на склад отходов и попробовать чисто ради интереса попробовать найти какое-нибудь упоминание данных персональных — сделать что-то вроде мини-исследования. Но нам отказали, когда узнали, что мы хотим с сотрудниками Роскомнадзора прийти.

Но это на самом деле так и есть. Вы смотрели офигенский фильм «Хакеры»? Они в мусоре ковырялись для того, чтобы какой-то участок вируса найти. Это тоже популярная штука — люди же когда выкинули что-то в открытые источники, они забыли об этом. Это может быть какой-то школьный сайт, на котором они писали диссертацию о превосходстве белой расы, а потом они пошли в Госдуму и забыли об этом. Такие случаи на самом деле были.

Что лайкают «единороссы»?


Если зайдёте в «топчик» на сайте «Лайфньюс»… Мне студенты два года назад делали исследование: они взяли всех участников праймериз «Единой России» (они все официально подали во ВЦИК свои аккаунты в соцсетях), посмотрели, что они вообще лайкают — порно детское, трэш, непонятные объявления от странных взрослых женщин… В общем, люди как бы забыли об этом.

dggcgjdzc8lrmac3u33ore3-1po.jpeg

Потом они написали письмо о том, что у двадцати человек аккаунты украли. Но аккаунты у них украли две недели назад, 8 месяцев назад они их в избирком подали, а лайки были два года назад… В общем, понимаете, да? Там есть реально огромное количество информации, которую даже в исследовательских целях можно всегда использовать.

Миниофтопчик: вчера новость увидел, что Роскомнадзор заблокировал исследования студентов «вышки» двухлетней давности. Может, кто-то видел эту новость, нет? Это мои студенты делали исследование: они из «Тора», с сайта «Гидра», где продаются наркотики (прошу прощения — с «Рампа»), собрали информацию, сколько, что, в каком регионе России стоит, и сделали исследование. Называлось оно «Потребительская корзина тусовщика». Это, конечно, смешная штука, но с точки зрения дата-анализа на самом деле дата-сет интересный — потом ещё года два по всяким «хакатонам» ходил. Это реальная штука — там много чего интересного есть.

Как Get Contact «купил души» любопытных юзеров и почему нужно читать пользовательское соглашение


Обычно, когда у человека спрашиваешь, какой утечки данных ты боишься (особенно, если у человека заклеена веб-камера), он всегда структуру приоритетов вот так ставит: хакеры, государство, корпорации.

uphvtvpcdyuds7lemuyacx3sfdk.jpeg

Это, конечно, шутка. Но на самом деле активные дата-аналитики, всевозможные исследователи данных понаворовали гораздо больше, чем, мне кажется, страшные русские, американские или какие-нибудь другие хакеры (подставьте любое, в зависимости от ваших политических убеждений). В общем, обычно все боятся этого — у вас же у всех наверняка веб-камера заклеена? Можете даже руки не поднимать.

Но если хакеры делают что-то незаконное, а государству нужно разрешение судебное на получение данных, то последним ребятам [корпорациям] вообще ничего не нужно, потому что у них есть такая штука, как пользовательское соглашение, которое никто никогда в жизни не читает. И я очень надеюсь, что подобные мероприятия всё-таки заставят людей читать соглашения. Я не знаю, как в Белоруссии, но в Москве в середине того года волна приложения «ГетКонтакт» (вы, наверное, были в курсе), когда появилось непонятно откуда приложение, которое говорит: ты дай-ка приложению доступ ко всем своим контактам, а мы тебе покажем, как ты у кого был смешно записан.

a17xlnq0wfnptfjgaoja6ny2dcm.jpeg

В СМИ не всплыло, но мне очень много высокопоставленных сотрудников жаловалось, что им начали все звонить постоянно. Видимо, администраторы решили в этой базе телефон Шойгу найти, ещё кого-нибудь… Волочковой… Безобидная штука. Но те, кто читал лицензионное соглашение «ГетКонтакта» — там написано: спам в неограниченном количестве в неограниченное время, продажи ваших данных бесконтрольно третьим лицам, без ограничения прав, срока давности и вообще всего, чего только можно. И это на самом деле не такая супер-редкая история. Вот мне «Фейсбук», пока я там был, по 15 раз в день показывал уведомления: «А синхронизируй-ка контакты, а я тебе найду всех твоих друзей, которые у тебя есть!».

Корпорациям всё равно. ФЗ 152 и GDPR


Но на самом деле приоритеты — в обратную сторону, потому что корпорации защищает частное право и поэтому практически во всех случаях невозможно доказать, что она не права. А с учётом того, что она большая, страшная и очень дорогая, то это практически невозможно. А если вы ещё и в России, с устаревшим законодательством, то как-то всё совсем печально.

mhvflwvpshqe5esudvlepug9nnq.jpeg

Знаете, чем отличается российский закон (а он практически белорусский) от, например, GDPR«а? Российский 152-й ФЗ защищает данные (это пережиток советского прошлого) — документ, который защищает данные от утечки куда-то. А GDPR защищает права пользователей — права на то, что они лишатся каких-то свобод, привилегий или ещё чего-то, потому что их данные куда-то утекут (они прямо в «дата-ли» ввели такое понятие). А у нас всё, что тебе могут вменить — штраф за то, что у тебя нет сертифицированного «опен»-«Экселя» для обработки персональных данных. Надеюсь, что это когда-нибудь поменяется, но, думаю, что не в ближайшее время.

Каковые реальные возможности таргетинга сегодня?


Первая, наверное, страшная история, про которую все постоянно думали — это чтение личных сообщений. Наверняка среди вас есть человек, который когда-нибудь что-нибудь вслух говорил, а потом получал таргетированную рекламу. Да, были такие? Руки поднимите.

zbhyxi7_kgvlbmzotxmcz0lk3e4.jpeg

Я на самом деле не верю в историю того, что условный «Яндекс Навигатор» распознаёт прям аудио в потоке для всех пользователей, потому что те, кто немного сталкивались с распознаванием голоса, они понимают, что: во-первых, дата-центр «Яндекса» в пять раз больше должен быть;, но самое главное, стоимость привлечения такого человека стоила бы огромные деньги (чтобы в потоке распознавать аудио и понимать, о чём человек говорит). Но! Реально есть алгоритмы, которые тегируют вас по определённым ключевым словам, для того чтобы потом делать какую-то рекламную коммуникацию.

Таких исследований проводили массу, и я 100 раз делал чистые аккаунты, что-то кому-то писал в сообщениях, а потом внезапно получал рекламу, казалось бы, никак не связанную с этим. Вывода здесь на самом деле два. Против такой истории — считается, что человек просто попадает в какую-то статистическую выборку; скажем, вы — мужчина 25 лет, который именно в этот момент должен был столкнуться с курсами английского языка как раз в тот момент, когда вы кому-то написали. По крайней мере, «Фейсбук» всегда так в суде говорит: что есть некая модель поведения, которую мы вам не покажем, которая была построена на данных, которые мы вам не покажем, у нас есть внутренние исследования, которые мы вам точно не покажем (потому что всё коммерческая тайна); в общем, вы попали в некую статистическую выборку, поэтому мы вам это показали.

Как «Фейсбук» приватность пользователей взбесила


К сожалению, это вообще невозможно доказать, если у вас нет человека внутри компании, который как-то подтвердит эти действия. Но в американском праве в таком случае соглашение о неразглашении этого сотрудника стоит выше, нежели его желание вам помочь, поэтому никто этого не сделает. Ещё интересно — было где-то год или полтора назад — начал развиваться тренд в Америке, когда люди ставили расширение для браузера для того, чтобы оно шифровало сообщения «Фейсбука»: пишешь что-нибудь человеку, он ключом на устройство его шифрует и отправляет белиберду в открытый доступ.

bkbuiatumygyrersggxispl6sj4.jpeg

Вот «Фейсбук» в течение полутора лет судился с этой компанией и таки непонятно на каких основаниях (потому что я плохо разбираюсь в американском праве) заставил их удалить это приложение и потом сделал поправку в пользовательском соглашении: если вы посмотрите, там есть такой пункт, что вам нельзя передавать в зашифрованном виде сообщения — там как-то это так хитро описано, что нельзя использовать криптографические алгоритмы для того, чтобы видоизменять сообщения — ну, есть такое. То есть они сказали: либо ты пользуешься нашей платформой, пишешь в открытом доступе, либо не пишешь. И отсюда возникает вопрос:, а нафига им вообще нужны личные сообщения?

Личные сообщения — источник стопроцентно достоверной информации


Здесь очень простая штука. Все, кто занимается анализом цифрового следа, активности человека, пытаются использовать как-то эти данные для маркетинга или ещё чего-то, — у них есть такая метрика, как достоверность. То есть некий образ человека — вы понимаете прекрасно, это не сам человек — этот образ всегда чуть успешнее, чуть лучше. Личные сообщения — это реальные знания, которые можно получить о человеке, они практически всегда на 100% достоверны. Ну потому что редко кто-то будет в личных сообщениях что-то кому-то писать, обманывать, и это всё проверяется очень легко — соответственно, по другим сообщениям (вы поняли, о чём я говорю). Суть в том, что знания, извлечённые подобным образом, они почти на 100% достоверны, поэтому все всегда пытаются их заполучить.

zbhyxi7_kgvlbmzotxmcz0lk3e4.jpeg

Но тем не менее это всё, опять же, очень сложно доказуемая история. А те, кто верят в то, что у условного «Вконтакте» есть такой доступ у правоохранительных органов для личных сообщений — это не совсем правда. Если вы просто посмотрите историю судебных запросов на раскрытие информации — как «Вконтакте» очень хитро (в данном случае Mail.ru) отбивается от этих запросов.
У них главный всегда аргумент: по закону правоохранительные органы должны аргументировать, почему именно нужен доступ к личным сообщениям. Как правило, если это убийство, всегда следователь говорит, что скорее всего человек сказал, где он спрятал оружие (в личных сообщениях). Но мы-то с вами понимаем, что ни один здравомыслящий преступник никогда в жизни во «Вконтакте» своим подельникам не напишет о том, где он спрятал огнестрельное оружие. Но это один из распространённых вариантов, чем отчитываются чиновники.

mpunhn3h5afolppwprtsae01d9g.jpeg

А вот ещё один такой страшный пример (меня просили сегодня страшные примеры приводить) — про Россию (надеюсь, в Белоруссии такого не будет): по закону следователю необходимо иметь достаточно веские основания для оператора, чтобы раскрыть эту информацию. Естественно, нигде эти достоверные параметры не описаны (какие, в каком виде они должны быть), но в России существует сейчас всё большее количество прецедентов, когда для суда такое основание появляется, если есть некая модель, которая спрогнозировала определённое, хорошее или плохое, поведение.

То есть у нас никого не могут посадить (и это хорошо) за то, что вы попали в некую статистическую выборку чистокровных убийц — и это хорошо, потому что нарушает презумпцию невиновности;, но есть прецеденты, когда результаты подобных прогнозов использовались для получения судебного разрешения на получение данных. Не только в России, кстати. В Америке тоже такая штука есть. Там «Палантир» всех уже давно тоже скорил, подобные штуки используют. Страшная история.

gg_qvhq7tnanclx0tp6hxupkfkk.jpeg

Это у меня исследование. Мы проводили такое: по Питеру гуляли, в местах зелёных точек мы писали какие-то ключевые моменты друзьям с «чистых» аккаунтов — типа «хочу-ка я выпить кофе», «а где купить стиральный порошок?» и так далее. А потом, соответственно, получали гео-привязанную рекламу. Каким магическим образом… Или как там говорили: «Совпадение? Не думаю!» Это личные сообщения «Вконтакте». Да простит меня Mail.ru, но это так. Любой желающий может подобный эксперимент повторить.

Кстати, на это, когда писали заявление в поддержку, Mail сказал, что там стояли wi-fi-точки, который ваш мак-адрес захватили. Такое тоже есть.

Способы получения и распространённые варианты «слива» личных данных


Следующая история — это извлечение дополнительных знаний, кусочка которого я на самом деле коснулся. На самом деле заполненный профиль человека в соцсетях реально несёт в себе 15–20% реальных знаний, которые оператор данных хранит о нём. Вся остальная история получается из очень интересных вещей. Почему, думаете, «Гугл» развивает очень сильно библиотеки для компьютерного зрения? В частности, они были одними из первых, кто развивал библиотеки собственно для анализа и категоризации объектов — на заднем фоне, на переднем плане, не важно где. Потому что это огромный источник дополнительной информации о том, какая у человека квартира, машина, где он живёт, предметы роскоши…

kcfuiwvx9rnmi4p2hwdiizjlosy.jpeg

Была куча «хакерских» вбросов, когда сливались обученные нейросетки «Гугла» (не знаю, чьи они были, но тем не менее). Там было много интересного на тему размера груди, объёма талии — что только люди не пытались узнать о людях других на основании анализа фотографий. Потому что, когда человек фотку делает, он же не всегда думает о том, сколько всего интересного можно с неё узнать? А сколько уж в России выкладывают паспортов новорождённых?… Или: «Ура, мой ребёночек получил визу»! Это вообще боль современного общества.

Такой ещё офтоп (я сегодня буду делиться с вами фактами): в Москве самый частый слив персональных данных — это ЖКХ, когда на дверь вешают список должников, а эти должники потом подают в суд, потому что их персональные данные в открытый доступ попали без их разрешения. Вдруг с вами такое случится… Суть в том, что человек, когда делает что-то, он же не знает, что было на той фотографии, чего не было. Номеров автомобилей сейчас много.

Мы как-то проводили исследование — пытались понять, какое количество людей с открытыми фотками машин (у них есть, соответственно, правонарушения и так далее) — это, к сожалению, можно было только по слитым базам ГИБДД сделать, где есть только номер (не очень достоверная информация), но тоже было интересно.

Ваша следующая реклама зависит от того, как вы «потребили» предыдущую


Это первая история. Вторая история — это модели поведения, контент, который потребляет человек, потому что одна из самых главных метрик, которую соцсети пытаются о вас построить — это то, как вы взаимодействуете с рекламой. Какими бы точными, «офигенскими» алгоритмы ни были, как бы замечательно ни работали искусственные интеллекты и всё прочее, но реальный приоритет социальной сети всегда — это зарабатывать деньги. Поэтому, если придёт условная «Кока-Кола» и скажет — «Хочу, чтобы мой пост увидели все жители Белоруссии» — они его увидят, вне зависимости от того, что об этом человеке думают алгоритмы, как его там таргетировать. Вы же наверняка получали рекламу, помимо супер-супертаргетированной, чушь совершенно никак не связанную. Потому что за эту чушь несвязанную очень много денег заплатили.

Но одна из главных метрик — это понять, с каким контентом вы взаимодействуете лучше всего, именно — как на него реагируете, для того чтобы вам показывать подобную рекламную историю. И соответственно, это метрика того, как вы взаимодействуете с рекламой: кто её банит, кто — нет, как человек кликает, читает ли он только заголовки или полностью проваливается в материал;, а потом на основании этого продолжать вас удерживать в этом, как это сейчас называется, «пузыре фильтров», для того чтобы вы продолжали взаимодействовать с этим контентом.

kwo5_ihan41yzxskl9zoamhhqou.jpeg

Если вдруг вам когда-нибудь будет интересно, вы попробуйте долгое врем, в течение недели, может быть месяца, просто всю подряд рекламу банить из соцсетей: вам показывают какое-то объявление — вы его закрываете. Если это анализировать и наложить на график, будет интересная история: если вы неделю будете банить рекламу, следующую неделю она будет показывать вам в усиленном варианте и вообще из разных категорий; то есть, условно, вы любите собак, и вам показывается реклама с собаками — вы всех собак забанили, и дальше они вам начнут показывать всевозможную разностороннюю чушь из разных вариантов, для того чтобы попытаться понять, что вам нужно.

А потом, в конце концов, плюнут, пометят вас как человека, который с рекламой не взаимодействует, поставят на вас условный крестик и в этот момент вам начнут показывать рекламу исключительно богатых брендов. То есть в этот момент вы будете видеть рекламу только «Кока-Колы», «Кит-Кита», «Юнилевера» и всех людей, которые «башляют» огромное бабло, потому что нужно накручивать просмотры. В течение месяца проведите эксперимент: одну-две недели баните всю рекламу, потом видите всё подряд, и баните её, — в конце концов, будете видеть только рекламу, как потом оказывается (и говорят рекламные агентства), только клиентов, которые платят за просмотры, потому что невозможно понять, как вы с этой рекламой взаимодействуете.

Порно чаще смотрят те, кто склонен глубоко погружаться в контент


Соответственно, здесь история про всевозможное отслеживание поведения. У меня примерчик такой интересный — посетители одного государственного веб-сайта. Самое смешное, что чем больше глубина просмотра у людей, тем больше из этих людей предпочитает просмотр порно традиционным отношениям. «Сори», что я всё время про эту тему говорю, но у меня на самом деле очень хорошие отношения с «Порнохабом», и это всегда очень интересные исследования, потому что это тема, которая вроде запретная, но она очень много о человеке рассказывает. И вытекающие отсюда следующие пункты про отдачу трафика… Мы ещё про «Порнохаб» вспомним!

Что считается персональными данными и можно ли разблокировать «Айфон» 3D-моделью лица?


Моё любимое — это обход закона о персональных данных. Если почитать техническую документацию того же «Фейсбука», который предоставлял какие-то внутренние документы (например, в суд), вы там не найдёте упоминания ни о распознавании лиц, ни об анализе голоса. Там будут очень сложные формулировки, которые ни один квалифицированный юрист не найдёт внутри законодательства. У нас в России примерно так же работает — я вам такую сейчас штуку покажу.

oe8hwknikk0a8nngipjzit7zdtq.jpeg

Вот вы здесь что видите? Любой нормальный человек скажет, что лицо. Это, кстати, Саша Грей, по-моему. А юридически это — матрица неких трёхмерных точек, которых здесь 300 тысяч штук. Хорошо это или плохо, но по закону это не считается персональными данными. Вообще, РКН российский не считает одну фотографию персональными данными — он считает персональными данными, если рядом есть ещё что-то (например, ФИО или номер телефона), а сама по себе фотография эта — вообще ничто. Как только ввели закон о биометрии, и биометрические данные приравняли к персональным (так, очень грубо), все сразу начали говорить: это не биометрические данные, это массив точек! Особенно, если от этого массива точек взять прямое или обратное преобразование Фурье, вроде как деанонимизировать человека назад вы из этого преобразования не можете, но идентифицировать его вы можете. Чисто теоретически закон эта штука не нарушает.
Ещё я делал другое исследование: это алгоритм, который строит трёхмерную реконструкцию лица по открытым источникам — берём аккаунт в «Инстаграме» и можно потом личико на 3D-принтере распечатать. Кому, кстати, интересно, у меня есть ссылка в открытом доступе; если вдруг кто-то захочет чей-то «Айфон» разблокировать… Шутка — «Айфон» нельзя разблокировать, там качество снижено.

hxsnzhnaxp1islxiebplln8chxa.jpeg

Закрытый профиль — это плюс для безопасности


Это первая штука, а вторая… Я касался уже того, что информацию в основном получают из окружения пользователя. Эту картинку в 17-м году я рисовал: среднестатистический пользователь российских социальных сетей — он внутри, у него в среднем 200–300 друзей, его друзья друзей и его друзья друзей друзей.

4owrrijur-s2ygj7ojs90to49ec.jpeg

Спасибо социальным сетям за то, что ввели алгоритмы «умных» e-лент, интегральных лет якобы для увеличения вероятности вашего столкновения с каким-то интересным контентом. Вот это количество людей может в любой случайный момент увидеть контент, который вы производите, даже если аккаунт у вас ограничен только верхними уровнями приватности (только для друзей друзей и так далее). Вот это — друзья друзей:

ukhlhquoax4c7m9rkzlfm5lh7hm.jpeg

Если кто-то думает, что когда он в ВК выбирает в «Моих постах» видеть «друзья друзей», то три рукопожатия — это примерно 800 тысяч человек, что в принципе не так мало, но зависит от вашего контента. Может быть, вы какие-то стримы неприличные ведёте, и все эти друзья друзей могут с этим контентом провзаимодействовать. Кто-нибудь из них может куда-то что-то перепостить, у всех людей есть лента лайков, которую на самом деле скорее всего отменят, потому что это не очень лицеприятная штука. Поэтому в любой момент контент может куда-то попасть.

ВК в том году запустили ещё суперзакрытые профили, но ими пока воспользовалось ещё очень малое количество людей (не буду говорить какое, но малое!). Возможно, когда-то люди додумаются до этого — я на самом деле искренне на это надеюсь. Все исследования постоянно направлены на то, чтобы дать людям понять масштаб проблем. Потому что, пока кого-то конкретно не коснутся какие-то страшные вещи, они никогда об этом не подумают. Идём дальше.

В госорганах не знают, что такое персональные данные и не спешат давать определение


Любой специалист по праву в области персональных данных всегда говорит следующее: никогда не нужно объединять различные источники данных, потому что тут у вас лежат e-mail«ы (это одни персональные данные с какими-нибудь обезличенными идентификаторами), тут — ФИО… Если это всё объединить, вроде как они станут персональными данными. Вообще, было бы правильно сначала коснуться этой темы, но я думаю, что вы уже погружены в неё и в курсе, может, как закон работает.

4yj_poylxljb8xys4etywl-xmzq.jpeg

На самом деле никто не знает, что такое персональные данные. Важная концепция! Когда я прихожу в государственные органы, говорю: «Бутылку коньяка тому, кто скажет, что такое персональные данные». И никто сказать не может. Почему? Не потому, что они глупые, а потому, что никто не хочет брать ответственность на себя. Потому что, если Роскомнадзор скажет, что вот это персональные данные, завтра кто-то что-то сделает, а они будут виноваты;, а они — органы исполнительной власти и вообще не должны ни за что отвечать.

Суть в том, что в законе чётко прописано, что персональные данные — это те данные, по которым можно идентифицировать человека. И там дан пример: ФИО, адрес домашний, номер телефона. Но мы-то с вами знаем, что идентифицировать человека можно и потому, как он на кнопки нажимает, и потому, как он взаимодействует с интерфейсом, и по другим косвенным параметрам. Если кому-то интересно: практически в каждой сфере есть огромное количество лазеек.

Идентификаторы, которые нас раскрывают


Вот, например, начали все ставить точки для захвата мак-адресов (сталкивались наверняка?) — умные (или не знаю, жадные) производители мобильного оборудования, типа Apple и Google, быстро ввели алгоритмы, которые выдают случайный мак-адрес, чтобы вас нельзя было идентифицировать, когда вы по городу идёте и всем отправляете свой мак-адрес. Но умные ребята ещё дальше додумались до следующей истории.

Например, вы можете получить лицензию мобильного оператора; получив лицензию мобильного оператора, вы получите доступ к такой штуке — называется протокол SS7, по которому вы будете видеть некий эфир мобильных операторов; там есть куча всевозможных идентификаторов, которые не являются персональными данными. До этого это было IMEI, а сейчас — прям буквально кто-то снял с языка и решил вести в России (инициатива такая) единую базу этих «имэев». Она вроде как есть, но тем не менее.

-5uknfpo5nbiy0cvcweleool7j4.jpeg

Есть ещё, например, куча идентификаторов — например, IMCI (идентификатор мобильного оборудования), который не является ни персональными данными, ни привязан к каким-то другим вещам и, соответственно, его можно сохранить без какого-либо законодательного преследования, а потом с кем-нибудь обменяться этими идентификаторами, чтобы с человеком потом прокоммуницировать.

Культура работы с персональными данными находится на низком уровне


В общем, суть в том, что все сейчас очень сильно озабочены объединением данных одного с другим, и большинство компаний, которые делают это объединение, иногда даже не задумываются об этом. Например, банк пришёл, заключил соглашение о неразглашении с компанией, которая делает скоринг, свалил ей 100 тысяч своих клиентов…

И не всегда у этого банка в соглашении есть пункт о передаче данных третьим лицам. Эти клиенты что-то там отскорили, и непонятно, куда потом эта база пошла, не пошла — в большинстве компаний в России нет культуры удаления данных… — обязательно этот «эксель» где-нибудь у секретаря потом на компьютере и повиснет.

Наши данные могут продаваться с каждой покупкой в магазине


Есть очень много схем, которые вроде как околозаконны (то есть законны). Например, история следующая: из 15 крупнейших российских банков только два являются собственно см

© Habrahabr.ru