Big Data: Большие данные или большой обман
При этом иногда самым важным считают именно объем данных, что отчасти обусловлено самим названием. Поэтому многие задумываются только о том, данные какого размера можно считать большими. В этой статье мы решили выяснить, что на самом деле важно в больших данных помимо размера, как они появились, почему их критикуют и в каких сферах они успешно применяются.
/ Flickr / Joe Hall / CC-BY
Если говорить про размер Big Data, то, например, Дэвид Кантер (David Kanter), президент Real World Technologies, считает, что большими данные можно назвать, если они не помещаются в памяти сервера и весят больше 3 терабайт. Однако официальное определение Gartner намного объемнее и включает не только характеристики объема, скорости и разнообразия форматов. Большие данные определяются и как информационные ресурсы, которые требуют экономически эффективных и инновационных методов обработки для более глубокого понимания, принятия продуманных решений и автоматизации технологических процессов.
Поэтому аналитик Gartner Светлана Сикьюлар (Svetlana Sicular) призывает принимать во внимание все определение в целом, а не зацикливаться только на части с тремя «V». Кстати, со временем число этих «V» выросло, и сегодня к характеристикам больших данных также относят Veracity, Validity, Volatility и Variability (достоверность, срок действия, волатильность и изменчивость).
Минутка истории
Но история больших данных начинается гораздо раньше. По версии одного из авторов Forbes, отправной точкой можно считать 1944 год, когда американский библиотекарь Фремонт Райдер (Fremont Rider) опубликовал свою работу The Scholar and the Future of the Research Library. Там он отметил, что фонды университетских библиотек в Америке увеличиваются в размерах в два раза каждые 16 лет и к 2040 библиотека Йельского университета будет содержать около 200 миллионов книг, для хранения которых понадобится почти 10 километров полок.
Согласно другому мнению, осознание проблемы слишком большого количества данных пришло раньше, еще в 1880 году в той же Америке, когда обработка информации и представление данных переписи населения в таблице заняло 8 лет. При этом по прогнозам обработка данных переписи 1890 года заняла бы еще больше времени, и результаты не были бы готовы даже до проведения новой переписи. Тогда проблему решила табулирующая машина, изобретенная Германом Холлеритом (Herman Hollerith) в 1881 году.
Сам термин Big Data был впервые (по данным электронной библиотеки Association for Computing Machinery) введен в 1997 году Майклом Коксом (Michael Cox) и Дэвидом Эллсвортом (David Ellsworth) на 8-й конференции IEEE по визуализации. Они назвали проблемой больших данных нехватку емкости основной памяти, локального и удаленного диска для выполнения виртуализации. А в 1998 году руководитель исследовательских работ в SGI Джон Мэши (John R. Mashey) на конференции USENIX использовал термин Big Data в его современном виде.
И хотя проблема хранения большого объема данных осознавалась давно и усилилась после появления интернета, переломным моментом стал 2003 год, за который было создано информации больше чем за все предыдущее время. Примерно в это же время выходит публикация Google File System о вычислительной концепции MapReduce, которая легла в основу Hadoop. Над этим инструментом в течении нескольких лет работал Дуг Каттинг (Doug Cutting) в рамках проекта Nutch, а в 2006 году Каттинг присоединился к Yahoo и Hadoop стал отдельным полноценным решением.
Можно сказать, что большие данные сделали возможным создание поисковых систем в том виде, в котором они существуют сейчас. Подробнее об этом можно почитать в статье Роберта Кринджли (Robert X. Cringely) или ее переводе на Хабре. Тогда большие данные действительно перевернули индустрию, позволив быстро выполнять поиск нужных страниц. Еще одна важная точка в истории Big Data — 2008 год, когда в журнале Nature большим данным дали современное определение как набору специальных методов и инструментов для обработки огромных объемов информации и представления её в виде, понятном пользователю.
Большие данные или большой обман?
В современном восприятии и понимании больших данных существует большая проблема — в связи с ростом популярности технологии она представляется панацеей и решением, которое должна внедрять любая уважающая себя компания. Кроме того, для многих людей большие данные являются синонимом Hadoop, а это наводит некоторые компании на мысль, что если обрабатывать данные с помощью этого инструмента, то они сразу становятся большими.
На самом деле выбор инструмента зависит не столько от размера данных (хотя и это может быть важно), сколько от конкретной задачи. При этом правильная постановка задачи может показать, что совсем необязательно прибегать к помощи больших данных и что простой анализ может оказаться намного эффективнее по временным и денежным затратам. Поэтому многие эксперты «ругают» феномен Big Data за то внимание, которое он к себе привлекает, вынуждая многие компании идти на поводу трендов и применять технологии, которые нужны далеко не всем.
Еще одно ожидание связано с тем, что большие данные — ключ к абсолютно всем знаниям. Но дело в том, что для извлечения информации нужно уметь составлять правильные запросы. Эксперт в области больших данных Бернард Мар (Bernard Marr) считает, что большинство проектов по использованию Big Data оканчиваются неудачей именно из-за того, что компании не могут сформулировать точную цель. Сам сбор данных сегодня ничего не значит, их хранение стало дешевле, чем уничтожение.
Некоторые даже считают, что Big Data на самом деле можно назвать большой ошибкой или большим обманом. Шквал критики обрушился на большие данные после нашумевшего провала Google Flu Trends, когда проект пропустил эпидемию 2013 года и исказил информацию о ней на 140%. Тогда ученые из Северо-Восточного, Гарвардского и Хьюстонского университетов раскритиковали инструмент, выявив, что за последние два года работы анализ чаще показывал неправильные результаты. Одна из причин — изменение самого поискового инструмента Google, что привело к сбору разрозненных данных.
Часто в результате анализа больших данных выявляются связи между событиями, которые на самом деле не могли никак повлиять друг на друга. Число ложных корреляций увеличивается с количеством анализируемых данных, и слишком много данных бывает так же плохо, как и слишком мало. Это не значит, что большие данные не работают, просто помимо компьютерного анализа необходимо привлекать к работе ученых и специалистов в определенной узкой области знаний, которые смогут разобраться, какие именно данные и результаты анализа представляют практическую ценность и могут использоваться для предсказания чего-либо.
Big Data спешит на помощь
Определенные проблемы существуют почти в любой сфере: неполные данные или их недостаток, отсутствие единого стандарта записи, неточность имеющейся информации. Но несмотря на это уже сейчас есть много успешных проектов, которые действительно работают. О некоторых кейсах использования Big Data мы уже рассказывали в этой статье.
На сегодняшний день существует несколько крупных проектов, цель которых — сделать ситуацию на дорогах безопаснее. Например, Tennessee Highway Patrol совместно с IBM разработало решение прогнозирования аварийных ситуаций, которое использует данные о предыдущих авариях, арестах водителей, находящихся в алкогольном или наркотическом опьянении, и данных о событиях. А в штате Кентукки внедрили аналитическую систему, основанную на Hadoop, которая использует данные с датчиков дорожного движения, записи в социальных сетях и навигационного приложения Google Waze, что помогает местной администрации оптимизировать затраты на уборку снега и более рационально использовать средства против наледи.
Эксперты Deloitte Centre уверены, что уже к 2020 году большие данные полностью изменят сферу медицины: пациенты будут знать о своем здоровье практически все благодаря умным устройствам, собирающим различную информацию, и будут участвовать в выборе лучшего возможного лечения, а исследования, проводимые фармацевтическими компаниями, выйдут на совсем другой уровень. С помощью больших данных и машинного обучения можно создать обучающуюся систему здравоохранения, которая на основе данных электронных медицинских карт и результатов лечения сможет прогнозировать реакцию конкретного пациента на лучевую терапию.
Существует и успешный опыт применения больших данных в сфере HR. Например, компания Xerox смогла снизить текучесть кадров на 20%, благодаря Big Data. Анализ данных показал, что люди без опыта, с высокой активностью в социальных сетях и с большим творческим потенциалом остаются на одном месте работы значительно дольше. Такие кейсы дают повод экспертам считать, что большие данные могут применяться для создания бренда работодателя, отбора кандидатов, составления вопросов для собеседования, выявления талантливых способностей у работников и выбора сотрудников для продвижения.
Большие данные используются и в России, например, Яндекс запустил сервис для предсказания погоды, для которого используются данные с метеостанций, радаров и спутников. При этом в планах было даже использование показателей встроенных в смартфоны барометров для повышения точности прогнозов. Кроме того, большими данными занимаются многие банки и большая тройка операторов мобильной связи. Изначально они использовали решения только для внутренних целей, но теперь, например, Мегафон сотрудничает с правительством Москвы и РЖД. Подробнее о кейсе Вымпелком (Билайн) можно почитать на Хабре.
Многие компании осознавали потенциал обработки данных. Но настоящий переход к большим данным связан с тем, как вся эта информация может быть использована во благо для бизнеса. Рубен Сигала (Ruben Sigala), глава аналитического отдела Caesars Entertainment, в своем интервью McKinsey говорит о том, что основная сложность в работе с большими данными — подобрать правильный инструмент.
Несмотря на то, что осознание проблемы пришло давно, и инструменты существуют и совершенствуются на протяжении многих лет, поиск идеального решения сегодня продолжается и может быть связан также с поиском кадров, от которых в гораздо большей степени могут зависеть результаты анализа больших данных.
P.S. О чем еще мы пишем в блоге IaaS-провайдера 1cloud:
- Немного о VPN: Краткий обзор программных реализаций
- Личный опыт: Как мы автоматизировали работу с DNS-записями в хостинг-панели
- Нюансы соглашения об уровне оказываемых услуг
- Зачем покупать SSL-сертификат
- Тренды облачной безопасности