Big Data: «Серебряная пуля» или еще один инструмент27.04.2016 11:33

Термин «Большие данные» появился не так давно — впервые его использовали в журнале Nature в 2008 году. В том номере (от 3 сентября) большими данными читателям было предложено называть набор специальных методов и инструментов для обработки огромных объемов информации и представления её в виде, понятном пользователю.

Очень скоро исследователи новоявленной области пришли к выводу, что большие данные не просто годятся для анализа, а могут оказаться полезными в целом ряде областей: от предсказания вспышек гриппа по результатам анализа запросов в Google до определения выгодной стоимости билетов на самолет на основе огромного массива авиационных данных.

Апологеты этого направления утверждают даже, что тандем мощных современных технологий и «мощных» объемов информации, доступных в цифровую эпоху, обещает стать грозным инструментом для решения практически любой проблемы: расследования преступлений, охраны здоровья, образования, автомобильной промышленности и так далее. «Нужно лишь собрать и проанализировать данные».

Кто работает с большими данными

На волне популярности больших данных увеличивается и число компаний, так или иначе использующих их в работе (или всерьёз задумывающихся об этом). Издание CNews провело опрос организаций на тему того, используют ли они (или планируют использовать) большие данные в работе: 40 компаний из 108 опрошенных ответили положительно. И в этом определённо есть смысл: при грамотном использовании больших данных бизнес видит реальную отдачу: руководители отмечают рост выручки, повышение точности позиционирования продуктов, увеличение эффективности маркетинговых кампаний.

Вот несколько примеров таких success-stories. Первый: известная онлайн-площадка для размещения, поиска и краткосрочной аренды частного жилья по всему миру — AirBnB. На веб-сайте компании вы не просто найдете информацию о владельце жилплощади, которую вы хотите снять, но и проверите, не является ли он другом кого-то из ваших знакомых на Facebook.

Данные пользователей анализирует и компания Netflix. Сотрудниками сервиса был разработан алгоритм, позволяющий формировать качественные рекомендации фильмов. Более того, компания использовала накопленную информацию для создания собственного уникального контента, который составил достойную конкуренцию лучшим продуктам кабельного ТВ.

Речь идет о политической драме «Карточный домик». Специалист по работе с данными Себастьян Вернике (Sebastian Wernicke) говорит: чтобы добиться успеха, нужно разобрать данные на составляющие и проанализировать их, а уже потом, используя голову, решать, что делать дальше.

Специалисты Netflix изучили уже имеющиеся у компании данные (рейтинги на платформе Netflix, историю просмотров и так далее), а затем использовали их, чтобы выявить те маленькие аспекты сериалов, которые нравятся зрителям. Результат — сериал, заработавший оценку в 9,0 в рейтинге IMDB (на момент написания статьи).

Созданием «Карточного домика» работа Netflix с большими данными не ограничивается. Например, компания использует анализ данных для составления каталога жанров и классификации фильмов и сериалов «на свой манер»: вместо привычных нам триллеров и романтических комедий среди более чем 90 тысяч (!!!) жанров Netflix можно найти «культовые ужастики со злыми детьми», «мрачный научно-фантастический саспенс» и даже «индийские романтические криминальные драмы».

При этом алгоритм, анализирующий кино со всего света, способен не только определять жанр фильма, но и потенциально может предсказывать появление новых направлений в кинематографе (об этом мы подробно рассказывали здесь).

Хотя большинство компаний не обладает подобными мощностями, это совсем не означает, что использовать данные могут лишь избранные бизнесы. Как пишет в своей книге «The Rise of Analytics 3.0: How to Compete in the Data Economy» Том Дэвенпорт (Tom Davenport): «Самая важная черта эры Аналитики 3.0 заключается в том, что не только онлайн-компании, но буквально любые фирмы в любой сфере деятельности могут быть вовлечены в экономику данных».

Компания UPS, например, использует данные цифровых карт и системы телеметрии, чтобы спланировать оптимальный маршрут для каждого из своих водителей, а их более 55 тысяч. Progressive Insurance учитывает информацию о кредитном рейтинге своих клиентов и сопоставляет её со своими данными для предсказания вероятности наступления страховых случаев.

Все это, с одной стороны, довольно стандартные сценарии применения data mining (в отличие от той же рекомендательной системы Netflix), но постепенно они из разряда «топовой аналитики для поиска инсайтов» превращаются во вполне тривиальные бизнес-задачи.

Как обстоят дела у нас

Российский рынок больших данных пока относительно мал: в 2014 году его размер оценили всего в $340 млн. по сравнению с общемировыми $33,3 млрд. Однако растёт он очень быстро: если «в среднем по больнице» (по миру) рынок Big data ежегодно прибавляет по 17%, то у нас рост составляет 40% в год.

Основные заинтересованные в анализе больших данных компании в России — телеком-операторы, банки, крупные ритейлеры: это неудивительно, так как данных они собирают действительно много и задачи (в первую очередь кластерного анализа потребителей) перед ними стоят остро. Однако есть и другие примеры.

Из наиболее показательных — международное подразделение Yandex Data Factory и Mail.ru Group. И если в Mail.ru анализ больших массивов данных служит в первую очередь цели развития собственных сервисов, то Яндекс работает и как b2b-датамайнер (в активе у компании проекты по анализу данных для компаний от Statoil до Wargaming).

Большим данным — большое плавание?

Действительно, большие данные могут применяться в самых разных областях, однако важно понимать плюсы и минусы данного инструмента, а также представлять себе, что с его помощью можно делать, а что делать нельзя.

При работе с большими данными речь не всегда идет об огромных объемах данных (точнее, не только о них), но почему-то именно это приходит в голову большинству при упоминании Big Data. Гораздо более значимой является возможность оценить данные — взглянуть на взаимосвязи между ними –, а затем связать их в единую цельную картину.

Но доверять корреляциям в полученных данных можно не всегда, например, известно, что число убийств в США снижалось вместе с падением доли Internet Explorer на рынке браузеров –, но это же абсурд и не имеет никакой практической применимости (кроме шуток).

Помимо этого, многие инструменты, основанные на больших данных, можно обмануть. Например, программы для оценки сочинений используют метрики вроде длины предложений и сложности употребляемых слов, а также выявляют соответствия в уже написанных работах, получивших высокие оценки.

В итоге алгоритм пытается свести качество творческой работы к относительно узкому набору количественных характеристик. Разумеется, определённый смысл в этой задаче есть, но процесс написания сочинения при таком подходе к оценке легко сведётся к механическому подбору «нужных слов».

От ошибок не застрахованы даже такие гиганты ИТ-отрасли и апологеты Big data, как Google. Компании так и не удалось победить явление «поисковых бомб», а проект Google Flu Trends, который по заверениям разработчиков способен предсказывать вспышки болезней, ошибался гораздо чаще, чем Центр по контролю и профилактике заболеваний США.

Не обошлось без сложностей и в Netflix. Система определения жанров, речь о которой шла выше, работает в точности так, как задумывали разработчики — за исключением так называемой Загадки Перри Мейсона, которую не могут толком объяснить ни сторонние аналитики, ни сами сотрудники Netflix.

По данным компании CA Technologies, 92% компаний, работающих с большими данными компаний, испытывают сложности с развитием проектов Big Data. Самыми серьезными препятствиями названы недостаточная развитость существующей инфраструктуры и организационные сложности по внедрению новых подходов для сбора данных.

Проблема может заключаться и в пресловутом «человеческом факторе» — далеко не каждый аналитик может эффективно работать в этом направлении. Рикардо Владимиро (Ricardo Vladimiro), сотрудник Miniclip, считает, что чтобы по-настоящему погрузиться в изучение данных, человек должен хорошо разбираться в статистике и теории вероятностей, а также уметь проводить эксперименты и проверять свои гипотезы, визуализировать данные.

Но и этого недостаточно: наука о данных — это смешение статистики, математики, программирования и, что немаловажно, предметных знаний, будь то торговля, банковское дело или любая другая индустрия. Слишком много организаций нанимают гениальных математиков и программистов, не обладающих этим последним компонентом.

Заниматься большими данными без глубокого понимания рынка конкретного бизнеса и особенностей конкретной компании просто невозможно. В частности, именно по этой причине Gartner рекомендует не набирать сотрудников по работе с данными со стороны, а тренировать таких специалистов внутри организации (не говоря уже о том, что все вышеозвученные навыки — от статистики до предметных знаний — трансформируются в отдельную профессию — аналитик по работе с данными).

Ещё одна проблема, которая возникает в первую очередь у «аналитиков-одиночек» — исследователей, работающих «на себя» (например, в рамках научной деятельности в университете), и небольших компаний, решившихся на использование больших данных — недостаток средств на соответствующую инфраструктуру, необходимую для их обработки.

При этом вопрос «где найти данные» в данном случае стоит не так остро: бизнесы собирают массу данных о клиентах (как мы помним, ошеломительный объём — не единственная и необязательная характеристика Big data), а исследователи могут использовать наборы, которые свободно распространяют крупные ИТ-компании.

Показательным примером может служить Yahoo: компания выпустила в широкий доступ внушительный набор данных для исследовательских целей. Как справедливо отметили пользователи ресурса Quora в соответствующем обсуждении, для анализа этого набора у исследователя без команды и ресурсов может не оказаться мощностей.

Решением в данном случае могут стать облачные сервисы: например, мы в 1cloud даем возможность использовать инфраструктуру дата-центров как компаниям, так и частным лицам. С одной стороны, это проще и дешевле, чем работать на собственных мощностях, с другой — такой формат работы позволяет не «ставить на большие данные все» и сократить риски в случае, если их использование окажется неоправданным.

Популярность Big Data привела к тому, что эту технологию начали воспринимать как универсальную «серебряную пулю», обладающую магическими способностями для решения любых задач. Но на самом деле, это всего лишь еще один инструмент, обладающий своими плюсами и минусами.

Для того, чтобы большие данные принесли реальную пользу, нужно не только вкладывать деньги в проекты по внедрению, но и использовать новые технологии (например облачные вычисления), работать над отладкой бизнес-процессов и менять подходы к управлению.

P.S. Дополнительные материалы о разработке провайдера виртуальной инфраструктуры 1cloud: