Артур Хачуян: искусственный интеллект в маркетинге
Артур Хачуян — известный российский специалист по обработке больших данных, основатель компании Social Data Hub (сейчас Tazeros Global). Партнёр НИУ ВШЭ. Подготовил и представил совместно с НИУ ВШЭ законопроект по Big Data в Совете Федерации Выступал в институте Кюри в Париже, СПБГУ, ФУ при Правительстве РФ, на Red Apple, International OpenDataDay, RIW 2016, AlfaFuturePeople.
Лекция записана на open-air фестивале «Гик-пикник» в Москве в 2019 году.
Артур Хачуян (далее — АХ): — Если из огромного количества отраслей — из медицины, из строительства, из чего-то, чего-то выбирать то, где технология больших данных, машинного обучения, глубинного обучения наиболее часто используется, то это, наверное, маркетинг. Потому что последние где-то года три всё, что окружает нас в каких-то рекламных коммуникациях, сейчас завязано именно на анализ данных и именно на том, что можно назвать искусственным интеллектом. Поэтому сегодня буду рассказывать вам про это из такой, очень отдалённой истории…
Если представлять себе искусственный интеллект, как он выглядит — наверное, это что-то такое. Странная картинка представляет собой одну из нейросеток, которые я написал год назад для поиска зависимости того, чем занимается моя собака — сколько раз ей нужно сходить по-большому, по-маленькому, и как это вообще зависит от того, сколько она ест, или нет. Это шутка про то, как можно было представить искусственный интеллект.
Но всё-таки давайте подумаем о том, как это всё работает в рекламных коммуникациях. Есть три направления того, как современные алгоритмы именно в рекламе, маркетинге могут с нами взаимодействовать. Понятно, что первая история направлена на то, чтобы получить и извлечь дополнительные знания о нас с вами, а потом их использовать для каких-то хороших и не очень целей; персонализировать подход к каждому конкретному человеку; естественно, после этого сформировать некий спрос для того, чтобы совершить главное целевое действие и провести некую продажу.
С помощью технологий пытаются решить проблему эффективной коммуникации
Если я вам скажу подумать, что общего между «Порнхабом» и «М. Видео», о чём вы подумаете?
Комментарии из зала (далее — З): — Телеки, аудитория.
АХ: — Моя концепция в том, что это — два места, куда люди приходят за определённым видом услуг, или назовём это — за определённым видом товаров. И эта аудитория отличается тем, что она ничего не хочет рассказывать продавцу. Она хочет зайти и получить то, что её интересует в каком-то явном или неявном виде. Естественно, никто, приходя в «М. Видео», не хочет общаться ни с какими продавцами, не хочет понимать, не хочет отвечать ни на какой из их вопросов.
Поэтому из этого всего вытекает первая история.
Когда появились технологии получения дополнительных знаний для того, чтобы каким-то образом не коммуницировать с человеком. Нам всем нравится, когда мы звоним в банк, и банк нам говорит: «Здравствуйте. Алексей, вы наш вип-клиент. Сейчас с вами поговорит какой-то суперменеджер». Вы приходите в этот банк, и там действительно есть уникальный менеджер, который может с вами поговорить. К сожалению или к счастью, ещё ни одна компания не додумалась, как на тысячу клиентов нанять тысячу персональных менеджеров;, а так как большинство этих людей сейчас находится в онлайне, задача — понять, что это за человек и как правильно с ним коммуницировать до того, как он пришёл на какой-нибудь рекламный ресурс. И поэтому, собственно, появились технологии, которые пытаются решить эту задачу.
Извлечение данных — вот новая нефть
Представим, что вы — владелец цветочного ларька. К вам заходят три человека. Первый очень долго стоит, мнётся, пытается с вами говорить, берёт какой-то букет — вы уходите его заворачивать, выходите что-то там делать; он с этим букетом убегает из ларька — вы потеряли свои три тысячи рублей. Почему так произошло? Вы ничего не знаете об этом человеке: вы не знаете его историю приводов в МВД, вы не знаете, что он — клептоман, состоит на учёте в психиатрическом диспансере. Почему? Потому что вы его увидели в первый раз, и вы не специалист по поведенческому анализу.
Приходит ещё какой-нибудь… Виталий. Виталий тоже очень долго разбирается, говорит, — Ну, вот, мне нужно то-то, то-то. А вы ему говорите, — Цветы для мамы, да? И продаёте ему букет.
Концепция здесь в том, чтобы узнать достаточное количество данных, для того чтобы понять, что этому человеку вообще нужно. Все сразу подумали о каких-то рекламных сетях и так далее…
Все неоднократно наверняка слышали дурацкую фразу, что «данные — новая нефть»? Наверняка все слышали. На самом деле данные люди научили собирать достаточно давно, а вот извлекать данные из этих данных — это та задача, которую сейчас пытается решить искусственный интеллект в маркетинге, или какие-то статистические алгоритмы. Почему? Потому что, если вы поговорите с человеком, он может вам дать правильный, неправильный, либо каким-то образом окрашенный ответ. Шутка, которую я рассказываю студентам — чем отличаются опросы от статистики — я вам расскажу в виде анекдота:
Значит, в двух деревнях решили провести исследование о средней длине мужского достоинства. Значит, в первой деревне, Вилларибо, средняя длина — 15 сантиметров, в деревне Виллабаджо — 25. Знаете почему? Потому что в первой деревне проводили измерения, а во второй — опрос.
Порноиндустрия — флагман рекомендательных систем
Это то, почему современный подход именно анализа всех людей поголовно, пусть их и чуть меньше, чем 100%, но это те люди, которых не нужно спрашивать, на них не нужно смотреть. Достаточно проанализировать то, что сейчас называется цифровым следом, чтобы понять, что этому человеку нужно, как с ним правильно говорить, как правильно сформировать спрос вокруг него. С одной стороны, это бездумная машина (но мы это с вами это прекрасно знаем); мы не хотим общаться с людьми из «М. Видео», а уж тем более, заходя на такие ресурсы, как «Порнхаб», мы хотим получить ровно то, что нам нужно.
Почему я всегда говорю про «Порнхаб»? Потому что adult-индустрия — первая, которая пришла к анализу подобных технологий, к внедрению подобных технологий, к анализу данных. Если вы возьмёте три самые популярные библиотеки в этой сфере (например, TensorFlow или Pandas для «питончика», для обработки csv-шек и так далее), если вы откроете на «Гитхабе», недолгим «гуглением» все эти фамилии вы найдёте парочку человек, которые либо работали, либо на данный момент работаю в компании «Порнхаб», и первые, кто там занимался внедрением именно рекомендательных систем. Вообще, эта история очень продвинутая, и показывает, насколько эта аудитория, насколько эта компания ушла вперёд.
Три уровня идентификации
Вокруг человека есть огромный набор данных, которые можно идентифицировать. Я обычно формально делю это на три уровня, погружаясь всё глубже и глубже. Естественно, у компании есть собственные данные.
Если, скажем, мы говорим о построении рекомендательной системы, то первый уровень — данные, которые находится у самого магазина (история покупок, всевозможные транзакции, то, как человек взаимодействовал с интерфейсом).
Далее есть уровень (относительно самый большой) — это то, что называется открытыми источниками. Не подумайте, что я призываю вас парсить соцсети, но по факту то, что есть в открытых источниках, открывает огромный набор данных, которые можно о человеке, сказать, узнать почерпнуть.
И третья большая часть — это окружение самого этого человека. Да, бытует мнение, что если человека нет в соцсетях — о нём нет там никаких данных (вы наверняка уже знаете, что это не так), но самое важное, что данные, которые находятся у человека в профиле (или в каком-то приложении) — это только 40% знаний, которые можно получить о нём. Остальная информация получается из его окружения. Фраза «скажи мне, кто твой друг, и я скажу, кто ты» в XXI веке обретает новый смысл, потому что огромный массив данных можно получить вокруг этого человека.
Если говорить ближе к рекламным коммуникациям, то получение рекламной коммуникации не из рекламы, а от какого-то вашего друга, знакомого или как-то верифицированного человека — это очень крутая фишка, которой пользуется куча маркетологов. Когда вам внезапно дарит бесплатный промо-код какое-то приложение — вы делаете об этом пост и тем самым завлекаете новую аудиторию. На самом деле этот промо-код на условное «Яндекс.Такси» был выбран совершенно не случайным образом, а для этого было проанализировано огромное количество данных о вашем потенциале привлечь новую аудиторию и с ней как-то провзаимодействовать.
Анализируют даже поведение героев сериалов
Я вам покажу три картинки, а вы скажите, в чём между ними разница.
Вот эта:
Эта:
И вот эта:
Какая между ними разница? Здесь всё просто. Как и в квантовой механике, в данном случае этот креатив сформировал наблюдатель. То есть разница в одной и той же рекламной кампании, проведённой одним и тем же брендом в одно и то же время, лишь в том, кто этот креатив смотрел. Лично мне, когда захожу на «Амедиатеку», до сих пор показывают кхала Дрого. Не знаю, что о моих предпочтениях думает «Амедиатека», но почему-то происходит так.
То, что сейчас называется персонифицированными коммуникациями — это самая популярная история привлечения аудитории и правильного взаимодействия с ней. Если на первом этапе мы определили людей, используя данные собственного бренда, данные открытых источников и, например, данные окружения этого человека, мы, проанализировав его, можем понять, кто он, как правильно с ним разговаривать и, что самое главное, на каком языке с ним разговаривать.
Тут технологии пошли настолько далеко, что сейчас анализируются герои сериалов, на которых смотрит человек. То есть вы лайкаете сериалы — они [лайки] смотрятся, отсматриваются, с кем вы там взаимодействовали, для того чтобы понять, какое лицо подойдёт, чтобы вы с ним провзаимодействовали. Звучит как полный бред, но вы ради интереса на каком-нибудь из ресурсов попробуйте — разные люди видят разный креатив (для того, чтобы правильно с ним взаимодействовать).
Ни одно современное СМИ или какой-то видеоресурс уже просто так не показывает вам какие-то новости. Заходите на СМИ — загружается огромное количество алгоритмов, которые идентифицируют вас, понимают всю вашу предыдущую активность, делают обращение к матмодели и затем показывают вам что-то. В данном случае тут вот такая странная история.
Как определяют потребности? Психометрия. Физиогномика
Есть очень много подходов (реальных) для определения действительных потребностей человека, и того, как правильно с ним коммуницировать. Подходов много, все решают по-разному, нельзя сказать — какой хороший, какой плохой. Основные, кажется, все знают.
Психометрия. После истории с «Кембридж Аналитикс» она приняла какой-то шокирующий, по-моему, какой-то оборот, потому что каждая вторая сейчас политическая компания приходит и говорит: «Ой, а можете сделать мне, как у Трампа? Я тоже хочу выиграть, и так далее». На самом деле это, конечно, глупости для наших реалий, например, политических выборов. Но для определения психотипов используются три модели:
- первая основана на контенте, который вы потребляете — на словах, что вы пишете, на какой-то информации, которую вы лайкате, видео и т. д.;
- вторая завязана на том, как вы взаимодействуете с веб-интерфейсом, как вы печатаете, какие кнопочки зажимаете — действительно, есть целые компании, которые по клавиатурному почерку умеют достаточно достоверно определять то, что сейчас называется психотипами.
- Я вот — не очень психолог, досконально плохо понимаю, как это работает, но с точки зрения рекламных коммуникаций аудитории, разбитые на эти сегменты, работают очень хорошо, потому что кому-то нужно показать красный экран с синей женщиной, кому-то — тёмно-синий фон с какой-то абстракцией, и это работает очень круто. На каких-то низких уровнях — настолько, что человек, даже не думает об этом. Сейчас основная проблема какая на рекламном рынке? Все — агенты спецслужб, все прячутся, у всех установлен миллион тысяч разрешений для браузеров, для того чтобы их никак не идентифицировали — у вас наверняка стоят «Адблоки», «Гостри» и всевозможные приложения, блокирующие отслеживание. Из-за этого очень сложно что-то понимать о человеке. А технологии ушли дальше — нужно не просто знать, что этот человек вернулся на ваш сайт в 125-й раз, а что он ещё такой-то странный человек.
Физиогномика — очень спорная наука. Её даже наукой не считают. Это группка людей, которые раньше программировали детекторы лжи для какого-нибудь МВД, а сейчас занимается, что называется, персонификацией креатива. Подход здесь очень простой: берётся несколько ваших публичных фотографий из каких-нибудь соцсеточек, по ним строится трёхмерная геометрия. И если вы юрист, то сейчас скажете, что это лицо и персональные данные;, а я вам скажу, что это 300 тысяч точек, находящихся в пространстве, и это не лицо, и персональными данными не являются. Так обычно говорят все, когда к ним приходит Роскомнадзор.
Но если серьёзно, отдельно ваше лицо, если там не подписаны имя и фамилия, вашими персональными данными не является. Суть в том, что ребята размечают различные черты лиц, влияющие на то, как человек принимает решения, как правильно с ним взаимодействовать. Где-то это работает плохо, в каких-то сегментах рекламы; в каких сегментах это работает очень хорошо. В конце концов, получается так, что, именно заходя на какой-то ресурс, вы видите не один баннер, который показывают всем, а, например… сейчас нормально делать 16 или 20 вариантов под разные аудитории, — и это работает очень круто. Да, это ещё печальнее с точки зрения потребителя, потому что людьми начинают манипулировать всё сильнее и сильнее. Но тем не менее с точки зрения бизнеса это работает очень хорошо.
«Чёрный ящик» машинного обучения
Это порождает следующую проблему подобных технологий: всё-таки для большинства разработчиков сейчас то, что называется глубинным обучением, является «чёрным ящиком». Если вы когда-то погружались в эту историю и общались с разработчиками, — они всегда говорят: «Ой, слушайте, ну мы там что-то накодили такое непонятное, и не знаем, как это работает». Возможно, у кого-то такое было.
Это на самом деле далеко не правда. То, что сейчас называется машинным обучением — далеко не «чёрный ящик». Есть огромное количество подходов, позволяющих описать входные и выходные данные, и в конце концов компания досконально может понять, на основании каких признаков машина решила показать вам этот порнографический ролик или другой. Вопрос в том, что никто из компаний никогда это не раскрывает, потому что: во-первых, коммерческая тайна; во-вторых, там окажется огромное количество данных, о которых вы даже не подозревали.
Например, до этого на дискуссии по этике мы обсуждали то, как социальные сети анализируют личные сообщения для того, чтобы тегировать людей в какие-то рекламные истории. Пишите вы кому-то что-то — на основании этого получаете определённый тег для, собственно, каких-то рекламных коммуникаций. И вы это никогда не докажете, и, наверное, нет смысла доказывать это. Тем не менее, если бы подобные модели раскрывались, они бы были. Получается так, что рынок построения подобных рекомендательных систем делает вид, что не знает, почему это произошло.
Люди не хотят знать, что о них знают
А вторая история — в том, что клиент никогда не хочет узнать, почему он получил именно это объявление, именно этот продукт. Я вам расскажу такую историю. Мой первый опыт коммерческого внедрения рекомендательных систем на подобных алгоритмах именно ради исследования был в 2015 году в очень крупной сети секс-шопов (да, тоже не особо лицеприятная история).
Клиентам была предложено следующее: они заходят, авторизуются своей социальной сетью, где-то через 5 секунд получают полностью персонифицированный магазин для них, то есть прям все товары изменились — они попадают в определённую категорию и так далее. Знаете, насколько увеличилась конверсия этого магазина? Ни на сколько! Люди заходили и сразу убегали из него. Они заходили и понимали, что им предложено именно то, о чём они думали…
Проблема этого теста была в том, что под каждым товаром было написано, почему вам предложили именно это («потому что вы состоите в скрытой группе «Властная женщина ищет мужика-«тряпку»). Поэтому современные рекомендательные системы никогда не показывают те данные, на основании которых был сделан «предикт».
Очень популярная история — это СМИ, потому что все они используют подобные рекомендательные системы. Раньше алгоритмы были очень простые: смотрите категорию «Политика» — вам и показывают новости из категории «Политика». Сейчас всё настолько сложно, что анализируются те места, где вы остановили мышку, на каких словах вы сконцентрировались, что вы скопировали, как вы вообще провзаимодействовали с этой страницей. Потом анализирует лексика самих сообщений: ага, вы не просто новости про Путина читаете, а в каком-то определённом ключе, с каким-то определённым эмоциональным окрасом. И когда человек получает какую-то новость, он даже не задумается над тем, как он сюда пришёл. Тем не менее потом с этим контентом взаимодействует.
Всё это, естественно, направлено на то, чтобы удержать бедного, несчастного человечка, который итак сходит с ума от огромного массива информации, которая вокруг него находится. Здесь надо сказать, что хорошо бы использовать подобные системы для персонификации креатива вокруг себя, сбора какой-то информации, но, к сожалению, пока таких сервисов нет.
Искусственный интеллект ловит клиента на взлёте и формирует спрос
И тут возникает один очень интересный философский вопрос, переходя от создания рекомендательной системы к формированию спроса. Редко кто о нём задумывается, но, когда вы пытаетесь спросить у условного «Инстаграма», — «Зачем вы собираете данные? Почему не показывать мне абсолютно рандомную рекламу?», — «Инстаграм» вам скажет: «Друг, это всё сделано, чтобы тебе показывать именно то, что тебе интересно». Мол, мы настолько точно хотим тебя узнать, чтобы показать тебе именно то, что ты ищешь.
Но технология давно перешагнула этот страшный рубеж, и подобные технологии уже давно не предсказывают то, что вам нужно. Они (внимание!) формируют спрос. Это, наверное, самая страшная вещь, которая крутится вокруг искусственного интеллекта в подобных коммуникациях. Страшна она в том, что она используется последние 3–5 лет почти повсеместно — от гугловой выдачи до яндексовой выдачи, до каких-то систем… Ладно, не буду про «Яндекс» ничего плохого говорить; и хорошего.
Суть в чём? Давно уже подобные рекламные коммуникации ушли от стратегии, когда вы пишите — «хочу купить детское кресло», и видите сто тысяч миллионов публикаций. Они перешли к следующему: только женщина выложила фотографию с едва видимым животиком, мужа уже сразу начнут преследовать сообщения — «Мужик, скоро роды. Купи детское кресло».
Здесь резонно вы спросите, почему при таких гигантских достижениях технологий мы до сих пор видим такую говёную рекламу в социальных сетях? Проблема в том, что на этом рынке до сих пор всё решают деньги, поэтому в один прекрасный момент может прийти какой-нибудь рекламодатель типа «Кока-Колы» и сказать: «Вот вам 20 миллионов — покажите мои говно-баннеры всему интернету». И они действительно это сделают.
Но если вы сделаете какой-то чистый аккаунт и протестируете, насколько точно подобные алгоритмы вас угадывают: они сначала пытаются вас угадать, а потом начинают вам что-то наперёд делать. А человеческий мозг работает таким образом, что, получая достоверную для него информацию, он даже не обрабатывает момент, почему он эту информацию получил. Первое правило определить, что вы во сне — нужно понять, как вы сюда пришли. Человек никогда не помнит момент, как он оказался в каком-то помещении. Здесь то же самое.
Google может начать формировать ваше мировоззрение
Такие исследования проводили несколько зарубежных компаний, которые занимаются i-трекингом. Они ставили на специальные компьютеры девайсы, которые записывают, куда смотрят глаза подопытного. Брала от пяти до семи тысяч добровольцев, которые просто скролили ленту, взаимодействовали с соцсетями, с рекламой, а они записывали информацию, на каких частях баннеров, креативов эти люди останавливают взгляд.
И получилось, что, когда люди получают такой сверх-персонифицированный креатив, они даже не задумываются об этом — они сразу переходят, начинают с этим взаимодействовать. С точки зрения бизнеса это хорошо, но с точки зрения нас, как пользователей, это не очень круто, потому что, — всего чего боятся? — Что в один прекрасный момент условный «Гугл» может начать (может, конечно, и не начать) формировать своё мировоззрение. Он может завтра, например, людям начать показывать новости о том, что земля плоская.
Шутка шуткой, но их ловили огромное количество раз, что во время выборов они начинают определённым людям давать определённую информацию. Мы все привыкли, что поисковая система всё достаёт честно. Но, как я всегда говорю, если хотите узнать на самом деле, как устроен мир — напишите свою собственную поисковую систему, без фильтров, без обращения внимания на копирайт, без ранжирования каких-то ваших друзей в выдаче. Выдача реальных данных в интернете вообще отличается от того, что показывают «Гугл», «Яндекс», «Бинг» и так далее. Какие-то материалы скрываются, потому что друзья, коллеги, враги или ещё кто-то (или бывший любовник, с кем ты переспал) — неважно.
Как победил Трамп
Когда были последние выборы в США, проводилось очень простое исследование. Они брали по одним и тем же запросам в разных местах, с разных «айпишников», с разных городов, разные люди гуглили одно и то же. Условно, запрос был в стиле: кто победит на выборах? И удивительным образом результаты таким образом были построены, что в тех штатах, где наибольшее количество людей пыталось голосовать не за того кандидата, они получали какие-то хорошие новости про кандидата, которого продвигал «Гугл». Какого? Ну, тут понятно какого — того, который президентом стал. Это абсолютно недоказуемая история, и все эти исследования — пальцем по воде. «Гугл» может сказать: «Ребят, всё это сделано для того, чтобы мы показывали максимально релевантный контент для вас».
Вы с этого момента должны знать, что то, что называется максимально релевантным — это ни фига не так. Компания называет релевантным то, что нужно вам продать по каким-то хорошим или плохим причинам.
Тех, у кого нет денег сейчас, уже готовят к будущим покупкам
Здесь ещё такой интересный момент, о котором я расскажу. Огромное количество активной аудитории сейчас в социальных сетях, в приложениях — это молодёжь. Назовём так её — неплатежеспособная молодёжь: дети 8–9 лет, которые кликают в дебильные игры, это — 12–13–14, которые только регистрируются в социальных сетях. Зачем огромные компаниям тратить огромные бюджеты и ресурсы на то, чтобы создавать приложения для неплатёжеспособной аудитории, которая никогда не монетизируется? В тот момент, когда эта аудитория станет платёжеспособной, о ней будет достаточный объём данных, чтобы очень хорошо прогнозировать её поведение.
Сейчас любого таргетолога спроси, какая самая сложная аудитория? Они скажут: высокодоходная. Потому что продать, например, квартиру стоимостью 150 миллионов рублей через социальные сети практически невозможно. Единичные случаи, когда вы делаете какую-то рекламу на 10 тысяч человек, один покупает эту квартиру — у клиента успех… Но один из десяти тысяч с точки зрения статистики — это хрень полная. Так вот, почему сложно определить высокодоходную аудиторию? Потому что люди, которые сейчас являются членами высокодоходной аудитории, были рождены, когда интернет ещё был совсем маленький, когда Артемия Лебедева ещё никто не знал, и о них нет никакой информации. Невозможно предсказать их модель поведения, невозможно понять, кто для них является лидерами мнение, из каких источников контент они принимают.
Поэтому, когда вы все через 25 лет станете миллиардерами, а у компании, которые собираются вам что-то продавать, будет огромное количество данных. Поэтому сейчас появился замечательный GDPR в Европе, который препятствует сбору данных несовершеннолетних.
Естественно, это ни фига не работает на практике, поскольку все дети всё равно играют в мамины, папины аккаунты — таким образом информация собирается. Когда дадите ребёнку в следующий раз планшет, подумайте об этом.
Абсолютно не страшное какое-то, антиутопичное будущее, когда все умрут в войне с машинами — абсолютно реальная история сейчас. Есть огромное количество компаний, которые занимаются созданием алгоритмов психопрофилирования людей по тому, как они играют в игры. Очень интересная отрасль. На основании этого всего люди потом сегментируются, чтобы с ними затем как-то коммуницировать.
Предсказание поведения этих людей будет доступно через 10–15 лет — именно в тот момент, когда они станут платёжеспособной аудиторией. Что самое главное, эти люди уже заранее дали разрешение на обработку своих персональных данных, передачу их третьим лицам и всё вот это вот счастье, и так далее.
Кто потеряет работу?
И последняя у меня история о том, что все всегда спрашивают, что будет через 50 лет: мы все умрём, будет безработица у маркетологов… Есть тут маркетологи, переживающие за безработицу, да? Переживать, вообще, не стоит, потому что любой высококвалифицированный человек работу не потеряет.
Какие бы алгоритмы ни были созданы, насколько бы сильно машина не подобралась к тому, что у нас находится здесь (указывает на голову), если это будет развиваться достаточно быстро, подобные люди никогда не останутся без дела, потому что креативы эти кому-то придётся делать. Да, есть всевозможные «ганы», которые рисуют картинки, похожие на людей, музыку создают, но всё-таки вряд ли когда-нибудь в этой сфере люди потеряют свою работу.
У меня с историей всё, так что можете задавать вопросы, если у вас есть ещё. Спасибо.
Ведущий: — Друзья, мы сейчас переходим к блоку «Вопрос — ответ». Вы поднимаете руку — я к вам подхожу.
Вопрос из зала (З): — Вопрос про «чёрный ящик». Говорили, что можно конкретно понять, почему именно такой результат по такому-то пользователю. Это какие-то алгоритмы, или это каждый раз для каждой модели ad hoc (прим. автора: «специально для этого» — латинский фразеологизм) нужно разбирать? Или есть уже готовые, для какой-то нейросетки можно понять, грубо говоря, бизнес-смысл?
АХ: — Здесь нужно понимать следующее: в машинном обучении есть огромное количество задач. Например, есть задача — регрессия. Для регрессии вообще никаких нейросетей не нужно. Там всё просто: у вас есть несколько показателей, вам нужно просчитать следующие. Есть задачи, где необходимо прибегать к такой штуке, как глубинное обучение. Действительно, в глубинном обучении сложно достоверно понять, какие веса к каким нейрончикам были установлены, но юридически всё, что вам необходимо — понять, какие данные были на входе, как они отыграли на выходе. Этого достаточно юридически для того, чтобы запантентовать подобное решение и этого достаточно для того, чтобы понять, на основании чего была принята история.
Нет такого, что вы зашли на сайт и вам показали какой-то баннер потому, что вы два месяца назад с красными волосами сфотографировались в «Инстаграм». Если разработчик не заложит сбор этих данных, разметку цвета волос в эту модель, то оно с потолка никак не возьмётся.
Как продавать результаты систем машинного обучения?
З: — Просто вопрос в чём: именно понять, как объяснить, продать кому-то, кто не разбирается в машинном обучении. Я хочу сказать: моя модель — от цвета волос чётко ведёт к… вот, цвет волос меняется… Это возможно или нет?
АХ: — Возможно, да. Но с точки зрения продаж, сработает единственная схема: у вас есть рекламная кампания, мы заменяем аудиторию на ту, которую формирует машина — и вы просто смотрите результат. Это, к сожалению, единственный вариант достоверно заказчика убедить в том, что подобная история работает, потому что на рынке куча решений, которые когда-то были внедрены, и они не работали.
О создании виртуальной личности
З: — Здравствуйте. Спасибо за лекцию. Вопрос такой:, а какой шанс есть у человека, который по какой-то причине не хочет идти на поводу у машинного обучения, создать себе виртуальную личность, кардинально отличающуюся от его собственной личности, с помощью взаимодействия с интерфейсом или по каким-либо другим причинам?
АХ: — Есть куча разных плагинов, которые занимаются именно рандомизацией поведения. Есть крутая штука — Ghostery, которая, по-моему, почти полностью тебя скрывает от кучи различных трекеров, которые не могут потом записывать эту информацию. Но по факту сейчас вам достаточно будет закрытого профиля в социальных сетях, чтобы никто, никакие злые парсеры там ничего не собрали. Лучше, наверное, поставить какое-нибудь расширение или написать что-нибудь самому.
Понимаете, здесь такая концепция, что юридически, например, персональными данными называются данные, по которым вас можно идентифицировать, и в законе приведён как пример адрес местожительства, возраст и так далее. Сейчас данных, по которым вас можно идентифицировать — бесчисленное множество: тот же клавиатурный почерк, то же нажатие, цифровая подпись браузера… Рано или поздно, человек ошибается. Он может где-нибудь в «кафэхе» сидеть через «Тор», но в конце концов в один прекрасный момент либо VPN забудет включить, либо ещё что-то, и в этот момент его можно будет идентифицировать. Так что проще всего сделать закрытый аккаунт и поставить какое-нибудь расширение.
Рынок идёт к тому, что нужно нажать только одну кнопочку для получения результата
З: — Спасибо за рассказ. Как всегда, очень интересно всегда (я за вами слежу). Вопрос такой: какой прогресс в смысле создания систем позитивных для пользователей, рекомендательных систем? Вы говорили, что в своё время занимались рекомендательными система для поиска партнёра полового, друга жизни (или музыка, которая потенциально может понравиться человеку)… Насколько всё это перспективно, и как вы видите его развитие именно с точки зрения создания нужных людям систем?
АХ: — Вообще, рынок идёт к тому, что людям нужно нажать одну кнопочку и сразу получить то, что нужно. Что касается моего опыта создания приложений для знакомств (мы его, кстати, в конце года перезапустим), там, помимо того, что 65% было женатых мужиков, самая сложная рекомендательная проблема была в том, что человеку на старте приложения предлагалось несколько моделей — «Дружба», «Секс», «Секс-дружба» и «Бизнес». Люди выбирали не то, что им нужно. Мужчины приходили выбирали «Любовь», а на самом деле они кидали всем обнажёнку, ну и так далее.
Проблема была в том, чтобы идентифицировать человека, который не подходит какой-то одной из этих моделей, и его как-то плавно взять и переместить в другую сторону. Из-за малого количества данных определить, ошибка ли это алгоритма прогнозирования, либо человек находится не в своей категории — очень сложно. То же самое с музыкой: очень мало сейчас реально достойных алгоритмов, которые хорошо «факастят» музыку. Может быть, «Яндекс.Музыка». Кто-то считает алгоритм «Яндекс.Музыки» плохим. Мне она, например, нравится. Мне лично, например, не нравится алгоритм «Ютуб»-музыки и так далее.
Там есть, конечно, свои тонкости — там всё завязано на лицензиях… Но реально спрос на подобные системы достаточно велик. В своё время была известна ко