Записки на полях Big Data Week Moscow
В продолжение к нашему предыдущему посту с презентациями с Big Data Week Moscow, мы собрали несколько заявлений российских и международных спикеров, которые нам особенно запомнились и показались заслуживающими внимания.Эти слова я записала на слух, поэтому прошу заранее простить возможные неточности. Также, если вы считаете какое-то из утверждений «баяном», отпишитесь в комментариях — интересно узнать, откуда растут ноги!
1.«Знание предметной области не особенно помогает data scientist’у в его работе«Михаил Левин, Chief Data Scientist, Yandeх Data Factory
Контекст: Data Factory — нашумевший проект Яндекса, который был презентован в минувшем декабре на парижской конференции Le Web. Yandex Data Factory развивается как стартап, направленный на международный рынок. разработчики Yandex Data Factory создают на основе Big Data продукты, ориентированные на крупный бизнес. Среди российских пилотов называли, например, Сбербанк.
Почему интересно: Традиционно data scientist’ы утверждают, что знание специфики предметной области определяет до 50% успеха применения машинного обучения. А Михаил Левин ставит во главу угла некий «черный ящик», который ищет корреляции между различными параметрами без учета физического смысла тех или иных значений.
2. «Эволюция экосистемы Hadoop повторяет эволюцию Linux«Джозеп Курто, Data Scientist, профессор IE Business School Madrid
Контекст: IE Business School входит в 20-ку лучших бизнес-школ мира. Недавно у них появилась магистерская программа по Big Data, и они стали собирать экспертизу в этой области. Джозеп Курто — директор исследовательской компании Delfos Research и data scientist, который специализируется на внедрении методов анализа данных в различные сфере бизнеса.
Почему интересно: Сравнение Hadoop и Linux сначала кажется неожиданным, но по сути продуктивно. Оно подразумевает как потенциальные масштабы распространения Hadoop, так и опровергает прогнозы о «смерти Hadoop» (например, в контексте Hadoop vs. Spark). Курто говорит о Hadoop как о парадигме и предрекает этой экосистеме не смерть, а развитие. К слову, противопоставление Hadoop и Spark не является корректным, более точно сравнивать Spark и Hadoop Map-Reduce.
3. «Билайн принял стратегическое решение сделать фокус на развитии Big Data для внешних заказчиков, а не для задач внутренней оптимизации«Алексанр Крот, ведущий data scientist, Вымпелком
Контекст: Вымпелком (компания-владелец бренда «Билайн») уже довольно давно и успешно развивает направление Big Data для решения внутренних задач. Более того, в Вымпелкоме целых два подразделения, которые работают с большими данными — отдел управленческой информации и специальная лаборатория по Data Science. Осенью 2013 года в Вымпелком пришел новый генеральный директор Михаил Слободин, с появлением которого связывают большие перемены в стратегии телекома.
Почему интересно: У Вымпелкома одна из сильнейших команд по Big Data в России (среди тех, что не являются частью крупных интернет-компаний). Про «традиционный» (то есть не интернет) бизнес принято считать, что Big Data помогает им в первую очередь увеличивать доходы от основной деятельности — находить новых клиентов, повышать чек, решать вопросы безопасности и пресекать мошенничество. Переход к новой стратегии, в рамках которой Билайн будет зарабатывать на данных, предоставляя услуги внешним заказчикам (речь не идет о предоставлении данных абонентов, это в компании обозначили четко и несколько раз). Решение связано с приходом нового CEO Михаила Слободина. Российский телеком-рынок давно прошел этап взрывного роста, сейчас он растет всего на несколько процентов в год и в будущем традиционные услуги будут становиться дешевле и приносить все меньше прибыли, поэтому Билайн делает ставку на Big Data как на возможность трансформировать структуру бизнеса.
4. «Конверсию рекламных интернет-компаний можно повысить примерно на 20%, если настраивать их с учетом психосегментации аудитории«Кирилл Чистов, директор по развитию Data-Centric Alliance
Контекст: Data-Centric Alliance — российская компания, специализирующаяся на работе с Big Data и высоконагруженными системами. Разработки компании лежат в области цифрового маркетинга — от programmatic-закупок для онлайн-рекламы, до технологических интеграций с базами данных компаний-клиентов.
Почему интересно: Имея на руках данные о поведении пользователя в интернете, можно таргетировать рекламные кампании с учетом его местоположения, пола и возраста. Чуть усложнив задачу аналитика, можно также узнать многое о намерениях и предпочтениях человека — что он читал и смотрел, где отдыхал, какую машину водит. Но сегодня многим маркетологам этого недостаточно.
В DCA учатся делить аудиторию по психотипам (рациональные/иррациональные, экстраверты/интроверты и тревожные). «Психотипизация» — сложный аналитический процесс, требующий и применения machine learning, и человеческих ресурсов.
Когда бренд понимает характер потребителя, он может адаптировать не только смысл послания, но и форму подачи, что значительно повышает конверсию. Таким кейсом из своей практики поделились в DCA: в категории «антивозрастная косметика», таргетинг на женщин, с тревогой относящихся к возрастным изменениям (психотип «тревожные») увеличил приток целевых посетителей промо-сайта в 2,5 раза при том, что каждый такой визит стал стоить рекламодателю на 60% дешевле.
Точное таргетирование рекламных кампаний сейчас становится все более востребованным. В марте Сбербанк купил компанию RuTarget, которая является разработчиком рекламной платформы Segmento — сервиса, использующего технологии искусственного интеллекта и обработки больших данных для сверхточного таргетирования рекламы.
5. «Использование технологий Big Data для анализа социальных сетей не имеет бесспорных бизнес-применений и на данный в большей степени является задачей R&D«Алексей Натекин, директор Data Mining Labs
Контекст: Data Mining Labs занимается интеллектуальным анализом данных, обучением студентов, проектной разработкой и исследованиями в области теории анализа данных.
Почему интересно: Возможность пользоваться открытыми источниками информации — одно из преимуществ работы с большими данными. В связи с социальными сетями часто упоминают задачи оптимизации рекламы и кредитного скоринга, но эти кейсы в большей степени опираются социальные «фичи» для внешней задачи, утверждает Натекин.
P.S. Организатором Big Data Week Moscow были Лаборатория новых профессий и центр Digital October.