«Компьютер не понимает смысла событий»: проблемы использования машинного обучения в маркетинге
Антон Липатов, менеджер по развитию и инновациям маркетинговой группы «Текарт», написал для vc.ru колонку об использовании алгоритмов машинного обучения в маркетинге. Он утверждает, что подход не всегда эффективен, потому что вложения в технологию окупаются только для крупных компаний, а фрагментация маркетинговых данных не позволяет добиться качественного результата.
Задача этого материала — показать подводные камни применения алгоритмов машинного обучения в маркетинговых задачах. С ними столкнулись мы, и сталкивается каждая компания, ставящая машинное обучение на службу маркетингу.
Примерно 3−4 года мы фиксировали рост интереса к теме данных. Он сводился к тому, что клиент говорил: «У нас есть данные, мы не знаем, что с ними делать». Нужно обработать, интерпретировать и упаковать данные таким образом, чтобы они стали знаниями, почвой для принятия решений. Всё просто.
Посмотрели, попробовали алгоритмы машинного обучения на клиентских базах в десятки и сотни тысяч записей. Мягко говоря, не взлетело. Ни в одном из случаев нельзя сказать, что машинное обучение стало панацеей. Что нельзя было обойтись более простыми методами, например, RFM-сегментацией клиентов по давности последней покупки, частоте и величине покупок.
Ещё одна задача заметки — в популярной форме рассказать, почему сейчас происходит активный отказ от термина big data.
Популярный стиль изложения разрешает вольность, в пределах разумного, в использовании терминов. Так, давайте считать синонимами понятия «машинное обучение», «дата-майнинг», knowledge discovery in databases и ту компоненту big data, которая относится непосредственно к алгоритмам решения задач. Какие еще есть компоненты у big data, напишем далее.
Почему прошла эпоха термина big data
Если кто-то не знал — да, эпоха прошла. В приличных компаниях лучше этот термин изъять из обращения, воспользоваться «дата-майнингом» или импортозамещающим «машинным обучением». Говорят, со smart data вы тоже будете неплохо выглядеть.
Что и когда случилось с big data? С big data с самого начала все было не в порядке. Только ленивый не говорил о том, что термин был введен на скорую руку и совершенно не отражает сути явления.
Почему не отражает? Дайте четкое определение big data. Сомневаюсь, что это смогут сделать специалисты. Сомневаюсь, что полученные ответы будут похожи друг на друга.
При этом большинство, конечно, назовет примеры конкретных задач, которые относятся к области больших данных. Они будут похожи друг на друга тем, что на входе есть много данных, на выходе — «профит». Между данными и профитом — черный ящик.
Пример 1. У банка есть доступ к миллионам кредитных историй. Каждый клиент имеет свои характеристики: социально-демографические, историю кредитования. Классическая скоринговая задача состоит в том, чтобы дать прогноз вероятности проблем, которые возникнут со вновь выдаваемым кредитом, на который оформил заявку клиент.
Пример 2. Есть база покупателей интернет-магазина. Нужно «нарезать» их на группы в зависимости от особенностей покупки. Вести единую коммуникацию в рамках группы.
Пример 3. Есть база продаж интернет-магазина. На основании исторических данных нужно разработать систему, рекомендующую товары дополняющие покупку.
Главная ценность черного ящика — это алгоритм машинного обучения, который находит нетривиальные знания в базах. Понятно, что выдать кредит человеку с хорошей историей и высоким доходом лучше, чем с плохой историей и низким доходом. Это тривиальное знание. Но, например, сложно заранее прогнозировать, что много «плохих» кредитов берется в понедельник. Это нетривиальное знание, до которого банковским аналитикам было бы сложно дойти.
На машинном обучении выросли многие интернет-технологии, которые мы сегодня воспринимаем, как должное: поиск, автоматический перевод, рекламные технологии. Например, подбор аудиторий по технологии look-alike.
Почему изначально класс решений не назвали «машинным обучением» или другим синонимом? Потому что машинное обучение сложно продать. А термин big data оказался отличной маркетинговой упаковкой. Этот лейбл на решении повышает цену в несколько раз. Простые продающие слова в названии, особенно если не дают понимания смысла, действуют магическим образом на руководителей: «У тебя есть big data? Нет? Ты рискуешь отстать, беги и срочно покупай. Все об этом уже говорят».
Нечто похожее 6−7 лет назад в России было с нанотехнологиями. Мало кто понимал, что это такое, но на это выделялись большие деньги.
Так появилась цитата про big data: «Большие данные как подростковый секс: все говорят о нем, никто на самом деле не знает, как им заниматься. Все думают, что остальные это делают, и поэтому заявляют, что занимаются тоже».
Цитата самодостаточна. Ее автор Дэн Эраэли работал в нескольких престижных университетах, его пять речей собрали более 10 миллионов просмотров на сайте TED. Единственное, он не имеет никакого отношения к big data. Его специализация — это психология в экономике, исследование иррационального поведения экономических субъектов.
Он получил Шнобелевскую премию за доказательство того, что дорогие лекарства плацебо помогают лучше дешевых лекарств плацебо. Напомню, у его презентаций 10 миллионов просмотров. При этом он не имеет отношения к большим данным, но тоже говорил о них.
Кстати, цитата сама по себе не новая — на протяжении 20 лет в неё подставляют нужный термин. Так, например, в 1998 году речь шла о e-commerce.
Что еще нужно, чтобы убеждать покупать? Правильно, аналитика, демонстрирующая активный рост и безоблачное будущее.
В таблице оценки и прогнозы четырех исследовательских компаний мирового рынка больших данных, сделанные в 2013—2014 годах. Большим данным большие оценки и соответствующие темпы роста, которые в 5−6 раз в процентах выше по сравнению с рынком ИТ в целом.
На старте в «Текарт» я несколько лет работал в нашем исследовательском направлении Techart.Research. Любая оценка в отчете должна сопровождаться описанием методологии ее получения. Если это рынок кирпича, то хватит одного предложения. А вот в случае с big data методология достойна отдельного исследования.
Вот описание методологии IDC (International Data Corporation — прим. ред.), которая среди перечисленных компаний наиболее известна. По IDC big data — это такие проекты, которые описываются четырьмя «V»: объем (volume), скорость сбора (velocity), неоднородность (variety) и ценность (value).
На практике 4V требуют того, чтобы проект собирал большие объемы данных (от 100 Тб) или работал с высокоскоростными потоками данных, а ежегодный прирост объема данных составлял более 60%. Данные должны быть разнородными, а решение должно иметь горизонтально масштабируемую архитектуру.
Что такое объём рынка big data на основании этого определения? Это, ни много ни мало, инвестиции, расходы на процессы, которые относятся к классу big data. Полный круг расходов: это и «железо», то есть процессоры и хранилища, и софт, и профессиональные услуги. Иногда даже зарплата персонала компании-подрядчика.
Полный круг затрат. Если учесть зарплаты, прогноз рынка превышает $ 100 миллиардов. Для сравнения мировой рынок софта оценивается только в $ 400 миллиардов. Получается, что big data — это уже четверть мирового рынка программного обеспечения.
Мы помним, что главная ценность и «лицо» big data — не аппаратное обеспечение, а алгоритмы машинного обучения. Но если смотреть на структуру рынка, все немного не так: «железо» занимает больше трети.
В остальных двух третях весьма расплывчатые термины «услуги» и «софт». Что из этого и как можно привязать к машинному обучению — непонятно, но можно с уверенностью говорить, что более половины рынка приходится на решение задач создания хранилищ.
Подобное передёргивание не могло долгое время оставаться в стабильном состоянии. Поэтому в 2015 году термин big data внезапно исчез с кривой зрелости технологий Gartner, составленной по методологии Hype Cycle. Годом ранее они вошли в эпоху «избавления от иллюзий» с прогнозом достижения «плато продуктивности» в последующие 5−10 лет. В пресс-релизе о выпущенном исследовании компания не дала комментария. Насколько можно судить по косвенным источникам, речь шла об отказе от термина big data в пользу машинного обучения.
Так заканчивается эпоха big data, но ни в коем случае не эпоха машинного обучения. Машинное обучение сейчас на коне в тех задачах, в которых возможен и целесообразен статистический подход.
Статистический и аналитический подход
Подход машинного обучения — это статистический подход, который хорошо известен в науке. Он противопоставляется аналитическому подходу. В чем их отличие?
Объясним очень грубо, на примере физики. В определенном процессе нужно найти уравнение зависимости величины у от величины x — y = f (x). Это может быть зависимость ускорения от приложенной силы по второму закона Ньютона или прироста температуры от потребленного тепла.
Аналитический подход заключается в том, чтобы описать все происходящие явления и на их основании вывести закон. Статистический подход — провести серию экспериментов, построить таблицу соответствия значений x и y и математическими методами определить зависимость.
Аналитический и статистический метод часто дополняют друг друга в нашем стремлении к познанию окружающего мира.
Методы машинного обучения не имеют ограничений на природу описываемых с их помощью явлений. То есть для применения алгоритмов не важно, идет ли речь о данных с датчиков технологического процесса, данных продаж интернет-магазина или словах для перевода на другой язык.
Перевод — та область, в которой машинное обучение совершило революцию. Если вы сторонник аналитического подхода, то чтобы перевести предложение с одного языка на другой, вам нужно задать правила морфологии, семантики, синтаксиса, и это только начала очень длинного списка. Перевод в поисковых системах основан на огромной базе текстов. Здесь не нужно выводить правила, согласовывать члены предложения: текст в выдаче будет определен на основании статистических показателей.
Другие области, в которых машинное обучение не только получило применение, но и вывело решения на новый уровень, — это сам поиск, обработка результатов научных исследований, прогнозирование загруженности дорог, выявление фактов мошенничества, медицинские исследования. Там машинное обучение дает уникальные по ценности результаты.
В 2014 году Аркадий Волож назвал большие данные в корпоративном сегменте одной из трех идей для следующего миллиарда «Яндекса». И в 2016 году у направления Yandex Data Factory, среди прочего, уже есть интересный промышленный кейс поставки решения для Магнитогорского металлургического комбината.
Во всех случаях на руку экспериментальному подходу играют стабильные, постоянно пополняемые источники больших данных. На подходе новые великие потоки, такие как интернет вещей и датчики человеческих чувств.
Машинное обучение в маркетинге
Кажется, со статистическим подходом в маркетинге все здорово: машинное обучение позволяет маркетологу спуститься на уровень конкретного клиента, конкретной транзакции. Говорить с клиентом тет-а-тет на его языке, понимать его потребности. Стать лавочником из Средневековья, который не только знает, кому что нужно предложить, но и который в курсе некоторых интимных подробностей жизни своих клиентов. Почему бы и нет, сейчас на каждого из нас уже есть хорошее досье. В итоге маркетолог может тратить меньше, продавать больше и купаться в лояльности.
Но, как выясняется, маркетинговые данные, а мы помним, что качество данных и стабильность их поступления принципиально важны, весьма отличаются от базы запросов Google или истории пробок на трассе. Эти отличия делают уровень пользователя не таким уж и приятным для ведения маркетингового диалога с клиентом.
Инструменты с бессмысленным уровнем пользователя
Данные о конкретных пользователях, их поведении и действиях, полезны не во всех маркетинговых каналах. Они хорошо подходят для персонализации сайта, email-рассылок, рекламных моделей programmatic.
В других каналах индивидуальная персонализация невозможна или бесполезна. Это киты интегрированного маркетинга: SEO, контекстная реклама, в которых мы в лучшем случае можем мыслить и работать с сегментами пользователей, а также реклама в офлайне, которая по-прежнему составляет главную строку бюджета маркетинговых затрат.
Машинное обучение — не про знания
Вторая особенность: машинное обучение существует само по себе и имеет мало отношения к знаниям. Применяемые алгоритмы сложны для понимания и в большинстве случае представляют собой черные ящики для самих исследователей. Результаты машинного обучения сложно или невозможно распространять на другие задачи. Каждая новая задача — это новое обучение.
Например, есть задача прогноза, какой размер скидки принесет наилучшую прибыль. Статистический подход предполагает загрузку данных о прошлых акциях и поведении потребителей. На этом основании выдает число.
При традиционном анализе размер скидки устанавливается субъективно, исходя из ряда факторов, таких как опыт исследователя, обращение к опыту коллег, проведение тестов с аудиторией. В это число входит анализ макроэкономических факторов, таких, например, как динамика доходов населения.
Оба подхода выдадут какой-то результат. Но на вопрос «почему столько?» у мастера машинного обучения будет один ответ — потому что так показали расчеты. В то время как сторонник дедуктивного метода, скорее всего, сможет восстановить цепочку рассуждений.
Результаты машинного обучения справедливы только для тех данных, которые у вас есть на входе. Как только появляются принципиально новые данные (например, от новых сегментов аудитории), на них алгоритмы, скорее всего, работать будут плохо. Для аналитического метода изменение входов — это тоже проблема. Но там преимущество состоит в том, что есть ответ на вопрос: «Почему мы решили предыдущую задачу именно таким образом?» И экстраполяция на новые входы может быть более простой.
Проблема качества данных
Проблема знаний философская. Машинное обучение не накапливает знания? Ну и что, мы в любой момент можем все пересчитать. Это, правда, тоже не всегда просто. В жизни куда более важно качество исходных данных, к которому чувствительны экспериментальные методы.
Чем больше факторов включено в анализ, тем, с некоторыми оговорками, интереснее и неожиданнее могут быть результаты. Это прекрасно работает, когда данные приходят от системы датчиков: по каждому фактору вы имеете стабильный поток значений.
В маркетинге данные на уровне пользователя не такие стабильные.
Во-первых, они подвержены различным шумам. В интернете причиной шума может быть несовершенство систем веб-аналитики или работа роботов. Хорошо, когда шумы экстремальные, тогда и их легко отловить. Когда они похожи на честные данные, это сделать очень сложно.
Во-вторых, данные фрагментированы. Для одних пользователей известен пол, для других — история запросов, для третьих — регион.
Получается, что модели строятся на некачественных данных, что и определяет соответствующий результат. В частности, по этой причине, сегодня неидеально работает programmatic.
Можно пойти по пути уменьшения количества факторов, которые берутся в расчет. Но здесь теряется уже смысл машинного обучения, поскольку при меньшем количестве условий лучший результат покажут более простые методы анализа данных или аналитический подход.
Сбор данных, подготовка — отдельная подзадача и отдельные инвестиции, которые нужно учитывать в конечном ROMI внедрения машинного обучения.
Корреляция вместо причинно-следственной связи
Машина может делать нечто, напоминающее принятие решений. Но компьютер не понимает смысла анализируемых событий, для него это лишь ряды цифр. Машинное обучение сводится к поиску корреляций — связей между изменениями факторов. Но такая связь вовсе не означает наличие причинно-следственной связи.
Классический пример: в европейских странах, где легализована проституция, число церквей в городах коррелирует с числом домов терпимости. Но не потому грешники больше каются или эти параметры еще как-то дополняют друг друга, а потому, что оба они зависят от другого фактора — населения города.
Проблема эффекта
Известно, что с ростом сложности эффект от анализа падает, а затраты возрастают. Машинное обучение — это очень сложная технология, технология «последней мили». С ее помощью «за дорого» можно выжать дополнительные 2−3% эффективности, что имеет экономический смысл на больших объемах бизнеса.
Пример таких затрат — конкурс Netflix Prize, который проходил в 2006—2009 годах. Если не первое, то самое известное соревнование в области больших данных с призовым фондом в $ 1 миллион.
Американская компания Netflix занимается прокатом видеофильмов. Каждому фильму пользователь ставит оценку — от одного до пяти. Нужно было предугадать оценку, которую пользователь поставит новому фильму. На основании этих оценок формируется рекомендательный список фильмов.
Очевидно, логика заключалась в том, что если Netflix даст правильные рекомендации, это повысить лояльность клиента, он будет брать фильмы напрокат чаще и не уйдет к другому прокатчику. Самый простой вариант — посчитать среднее по всем оценкам фильма — давал среднюю квадратическую ошибку примерно в один балл. Если очень грубо, то он ошибался в каждом случае с оценкой примерно на балл.
Цель конкурса была улучшить показатели этого простейшего подхода на 18% или улучшить разработанный ранее алгоритм Netflix на 10%.
В итоге цели удалось достичь. Не смог найти оценку общих затрат труда на проект, но она огромна. Надо понимать, что конкурс продлился три года, в первый год зарегистрировалось 20 тысяч команд, а команда-лидер по итогам первого года потратила 2 тысячи человеко-часов.
Проблема визуализации
Еще одна маленькая ложка дегтя. Результаты анализа на пользовательском уровне сложно представить. Как правило, мы получаем нечто вроде таких графиков, которые сложно интерпретировать и что-то с их помощью доказать руководству. Для большинства и процесс исследования до момента результатов остаются черным ящиком.
Перечисленные ограничения не хоронят идею, но на сегодня именно качество данных делает машинное обучение в маркетинговой плоскости неэффективным или нишевым инструментом. И тут еще одно замечание.
Последние несколько лет, особенно в интернет-маркетинге, мы переживаем подъем data-driven, то есть ориентированного на данные подхода. CRM, персонализация сайта, теперь машинное обучение. Эти и другие технологии используют данные для повышения эффективности маркетинга. Мы считаем ROI, LTV и прочее. Оцениваем рекламные кампании. Я тоже сторонник data-driven подхода.
Это все очень здорово. Наверное, ни один из топовых брендов не был бы так высоко, если у них был неэффективный маркетинг. Однако создается ощущение, что интернет-маркетинг возвращается к войне алгоритмов SEO начала века, когда за счет дыр в «Рамблере» сайт выводился в топ за три дня. С «Яндексом» потом было сложнее, но все равно работал алгоритм: следуй инструкциям по продвижению, и успеха не избежать.
После этого поисковики приложили немало усилий, чтобы поставить интернет в маркетинговую колею. Появилась большая группа поведенческих факторов ранжирования, выросла значимость хорошего контента. Интернет-маркетинг начал приобретать человеческое лицо, стал ближе к «традиционному» маркетингу.
И тут технологии машинного обучения претендуют на то, чтобы заместить на поле битвы маркетологов обратно алгоритмистами.
Создается ощущение, что за всем этим несколько теряется истинная суть маркетинга, которая заключается не в постоянном повышении эффективности, а в способности понять клиента, сформировать у него потребность и реализовать ее.
Компьютер не способен справиться с задачей формирования потребности. Поэтому чистый ориентированный на данные маркетинг, в котором алгоритм заменяет маркетинговую идею, имеет право на жизнь, но вряд ли станет залогом небывалого успеха. Как не стоит ставить равенство между маркетингом и маркетингом на уровне пользователей, так и не стоит полностью заменять маркетинг синтетическим эрзац-маркетингом, основанном только на данных и на истории.
Возможно по этой причине эмпирический подход, заложенный в технологии больших данных, хорошо работает в холодных областях, таких как перевод, анализ научных исследований, финансы. И пока плохо в области маркетинга, который изначально теплый и ламповый.
© vc.ru