Школа данных: Москва, Питер… онлайн
Привет, Хабр,
Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…
Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.
Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Первый нюанс это доступ к данным. Несомненно, для того, чтобы делать какие-либо выводы о людях, нужны данные о них. В статье описано, что данные получались одним из трех способов: покупкой, сторонними приложениями, либо через API.
Про API сразу стоит сказать, что это довольно ограниченный инструмент — поэтому для обработки большого количества данных такой вариант не подойдет (как правило, спустя определнное количество запросов к API всплывает CAPTCHA).
Второй вариант — сторонние приложения — на наш взгляд — очень узкий — сперва нужно «заманить» в это приложение всех пользователей. По заверениям авторов статьи — у них база на более 200 млн человек — вряд ли 200 млн людей ставили специальное приложение и проходили опросы. К тому же — методика добычи опросов из социальных данных — это целое искусство — довольно сложно получить правильные ответы, потому что сама методика определяется интерфейсом, постановкой вопроса, восприятием и многими другими вещами.
Третий вариант с покупкой данных выглядит самым вероятным, но не факт, что исчерпывающим. Хотя рынок данных на Западе и является более продвинутым и прозрачным, тем не менее и у него есть ограничения. Если бы конечно данная компания имела связи с крупнейшей социальной сетью — тогда и в API нет необходимости и покупать ничего не нужно. Но вопрос A/B тестирования сохраняется: нужно сделать огромное количество показов, чтобы научиться различать предпочтения людей на том уровне детализации, как описано в статье. Вспоминая рынок Programmatic даже таргетинги по достаточно базовым интересам или принадлежности к группам пока далеко не всегда достижимы.
Второе нюанс — алгоритмы. Вот тут на сомнений нет в том, что авторы говорят правду, поскольку на сегодняшний момент и вычислительные мощности и математика на высочайшем уровне и позволяют строить довольно качественные алгоритмы. Кто хочет удостовериться лично — просто посмотрите статьи с типичных конференций по Машинному обчению и поймете, что все возможно, причем за довольно короткий срок.
В основном это алгоритмы машинного обучения с учителем, которые формируют обучающую выборку из тематических групп социальных сетей. Например, для того, чтобы сформировать пул людей, активно поддерживающих Трампа, можно найти в Facebook соответствующую группу и внимательно их проанализировать, отобрав типичных людей. Аналогично можно найти людей, поддерживающих Хиллари Клинтон. Итого, у нас получится 2 набора людей, которых нам нужно различать. Дальше — дело техники. Для этих людей с помощью API выгружается большое количество признаков (можете только взглянуть, сколько всего там есть, например, для Facebook или для ВКонтакте).
Далее, с помощью нехитрых методов машинного обучения, например, логистической регрессии, строится классификатор, который умеет разделять эти обьекты. После этого уже дело за малым — готовым классификатором «пройтись» по социальной сети (на самом деле достаточно по релевантным группам) и отобрать целевую аудиторию, с которой уже можно работать посредством, например, таргеттированной рекламы.
Есть также и эвристические алгоритмы, например, одно время в социальной сети ВКонтакте нельзя было посмотреть людей, которые имеют наибольшее кол-во подписчиков (совсем давно это можно было сделать, перейдя на вкладку люди, потом эту возможность на какое-то время убрали). В этом случае можно применить эвристические идеи, основанные на известной идее предпочтительного присоединения из теории веб-графов. Например, описанный здесь.
Примечательно, что описанный в статье метод практически не использует API социальной сети (поэтому и не упирается в ее ограничения), не строится никаких графов, тем не менее — как видно, алгоритм работает довольно качественно. Существует также набор алгоритмов и методов для анализа текстовой информации из социальных сетей, в которых применяются идеи тематического моделирования, рекурентных нейронных сетей и многое другое. Примером этой аналитики является сервис BrandWatch.
Третий нюанс это охват аудитории. На сегодняшний момент — одна из острых проблем в цифровой рекламе — где ее показывать, чтобы захватить необходимую им целевую аудиторию. В экосистеме RTB это так называемые паблишеры (publishers) — ресурсы, которые на которых собственно располагаются баннеры таргетированной рекламы. В данном случае проблем у коллег не было — они использовали рекламу в социальной сети.
Другими словами, чтобы получить результаты, описанные в статье основная проблема с получением данных. Применение же алгоритмов это в данном случае скорее ремесло, чем know-how. Но это ремесло очень важно применять правильно, что значит, например, уметь отвечать на следующие вопросы:
— Какого качества алгоритма достаточно, чтобы решение было окупаемым?
— Как правильно выбрать целевую группу и обучающую выборку для обучения алгоритма?
— Как можно обойти ограничения API социальных сетей, используя эвристические алгоритмы?
— Как часто надо переобучать модель?
— Как поставить рассчет модели «на поток», за какими метриками нужно следить?
Этому ремеслу мы и учим в нашей Школе.
К сожалению, наш опыт показывает, что даже участие и успешное выступеление в соревнованиях Kaggle не помогают при решении индустриальных задач (к похожему заключению пришли и любители соревнований по спортивному программированию — участие в соревнованиях типа ACM имеет мало общего с индустриальной разработкой ПО). Более того, данный опыт приобретается лишь методом проб и ошибок и никогда не будет описан в книгах — даже мы на своих лекциях рассказываем не все тонкости, которые применили на практике.
Напоминаем о датах начала наших курсов:
Курс для аналитиков — 17 апреля
Курс для менеджеров — 18 апреля
Курс в Санкт-Петербурге — 24 апреля
Также у нас есть новый курс. К нам поступало много запросов касательно дистанционного обучения. Отвечая на эти запросы мы сделали онлайн вводный курс. Этот курс является вводным в машинное обучение и анализ данных и, с одной стороны, позволяет вам познакомиться с этими дисциплинами, а с другой готовит слушателей к нашим основным курсам. Записаться на подготовительный курс можно здесь.
Комментарии (3)
4 апреля 2017 в 07:48
0↑
↓
, а меня всегда интересовал вопрос, вот билайн такой большой, у него так много денег, и очевидно, что какие то там 2.5 миллиона за курс ну это мелочи для такой конторы; почему билайн не делает, как другие цивилизованные компании, бесплатные курсы? за примерами ходить не нужно далеко, мейлру, яндекс и тд4 апреля 2017 в 09:06
0↑
↓
Это не совсем билайн. Скорее ассоциированный с одним из руководителей сайд проект.4 апреля 2017 в 09:22
0↑
↓
ну был бы не билайн, то и хостлось бы все это не на билайне и не использовался бы их бренд, то как оно там устроено изнутри внешнему наблюдателю не известно; со стороны видно что это курсы билайна, все дата саенс сообщество называет их курсами билайна, а не курсами, ассоциированными с одним из руководителей стороннего проекта; ну и со стороны видна мелочность огромной компании, так себе пиар