Что не так с большими данными
Ранее в нашем блоге мы затрагивали тему интеграции Big Data с традиционными ИТ-системами и облачной инфраструктурой, а также говорили о плюсах, которые эта технология может принести бизнесу. В сегодняшнем материале речь пойдет не о положительных сторонах больших данных, а об их минусах.
Число компаний, работающих с Big Data постоянно увеличивается — 40 из 108 опрошенных изданием CNews организаций заявили о том, что используют или начинают экспериментировать с большими данными. Бизнес видит реальную отдачу от их использования, участники различных опросов часто отмечают положительный эффект (рост выручки, более точное позиционирование продуктов, повышение эффективности маркетинговых кампаний).
Большие данные используются для решения самых разных задач — анализ миллиардов поисковых запросов в Google помогает предсказывать места выспышек гриппа, обработка зиллионов телефонных разговоров может сослужить добрую службу в деле выявления террористов, а использование огромного массива авиационных данных полезно для выгодной покупки билетов на самолет.
Совмещение мощи современных технологий с впечатляющим объёмом информации доступной в цифровую эпоху обещает стать инструментом для решения практически любой проблемы — расследование преступлений, улучшение здоровья общества, эволюцию грамматики или сложности на свиданиях. Нужно лишь собрать и проанализировать цифры.
Журналист Патрик Такер в своем манифесте big data «Обнаженное будущее» («The Naked Future») пишет:»[…] мы сможем предсказывать значительные участки будущего с куда большей точностью, чем была доступна когда-либо ранее в человеческой истории, включая события, которые, как считалось, полностью неподвластны человеку». Но все ли так безоблачно?
Что мешает большим данным
Действительно, большие данные могут применяться в самых разных областях, однако важно понимать плюсы и минусы данного инструмента, а также представлять себе, чего с его помощью можно добиться, писали в 2014 году в колонке для New York Times Гари Маркус и Эрнест Дэвис.
Например, авторы указывают на несколько слабых мест больших данных. Не всегда можно доверять корреляциям в полученных данных (например, число убийств в США снижалось вместе с падением доли Internet Explorer на рынке браузеров).
Помимо этого, многие инструменты, основанные на больших данны, можно обмануть — например, программы для оценки сочинений студентов часто используют метрики вроде длины предложений, сложности употребляемых слов, а также ищут соответствия между использованными оборотами и теми, что ранее были отмечены в работах, получившими высокую оценку учителя-человека. В результате студенты просто начинают писать длинные и сложные предложения, вместо того, чтобы думать о формулировке и донесении своей мысли.
Даже такие гиганты как Google не могут до конца победить явления, вроде поисковых бомб, а проект Google Flu Trends, который как заявляла компания, может предсказывать вспышки болезней точнее, чем Центр по контролю и профилактике заболеваний США, в итоге давал больше неверных прогнозов, чем сбывшихся.
Важно помнить и о сложностях, которые могут возникать при начале работы с Big Data — по данным компании CA Technologies, до 92% организаций во всем мире испытвают те или иные сложности при развитии своих Big Data-проектов.
Самым крупным препятствием на пути к использованию Big Data в исследовании названа недостаточная развитость существующей инфраструктуры (30% опрошенных), далее следуют организационные сложности по внедрению новых подходов и сбору данных (часто договориться с разными поставщиками информации довольно тяжело), а также вопросы обеспечения безопасности и соответствия стандартам. Кроме того, бизнесу часто не хватает ресурсов (в том числе финансовых).
Что делать
Как пишет экономист Тим Харфорд в статье на Financial Times, после первого успеха Google Flu Trends многие «уверовали в мощь сырых данных», решив, что достаточно собрать огромный объём информации, а дальше она сама подскажет верные действия. Проект Google был лишь интересным экспериментом, однако при использовании данных для принятия бизнес-решений нужно еще и строить гипотезы и теории, в соответствии с которыми могут развиваться события.
Делать этого без глубокого понимания рынка конкретного бизнеса и особенностей конкретной компании просто невозможно. В частности, именно поэтому аналитики Gartner рекомендуют не набирать аналитиков по работе с данными (data scientists), а выращивать таких специалистов внутри организации.
Технические проблемы, вроде недостатка инфраструктурных мощностей, можно решить с помощью использования новых технологий — например, облаков. Разработчики продуктов для работы с Big Data это понимают — не так давно MapR и Hortonworks обновили свои Hadoop-платформы, чтобы они лучше работали с распределенными кластерами в облаках.
Заключение
Популярность Big Data приводит к тому, что часто подобные технологии воспринимаются, как универсальная «серебряная пуля» для решения любых задач. Но на самом деле, это всего лишь еще один инструмент, который имеет свои плюсы и минусы.
Согласно отчету CA Technologies, в следующие три года затраты компаний в разных страна на проекты, использующие Big Data увеличится с 18% от общего бюджета до 25%. Будут расти и объёмы данных, которые компаниям нужно будет обрабатывать. Представители организаций, которых исследователи опрашивали в рамках подготовки отчета, говорили о том, что понимают важность инвестиций в Big Data.
Однако для того, чтобы большие данные принесли реальную пользу, нужно не только вкладывать деньги в проекты по внедрению, но и использовать новые технологии (например, облака), работать над отладкой бизнес-процессов и менять подходы к управлению. Руководители просто не смогут продраться через огромное количество деталей, а значит им придется чаще делегировать принятие решений на нижние уровни и давать сотрудникам больше свободы.