Видовое разнообразие данных15.03.2017 12:52

Термин «большие данные» давно уже звучит привычно, и многие даже понимают, что это такое на самом деле и как его использовать. В то же время, специалисты по анализу данных придумали множество других градаций собираемой информации, в зависимости от размера, востребованности, актуальности и так далее. Удивительно, но данные могут быть «быстрыми», «горячими», «длинными» и «медленными», даже «грязными». Хотя весь этот аналитический зоопарк и не помог многочисленным аналитикам правильно предсказать решение британцев выйти из ЕС и победу Трампа.
Большие данные — это не просто очень большие массивы информации, но совокупность подходов, методов и инструментов обработки различных данных колоссальных объёмов.
Большие данные — не просто сведения, это социально-экономический феномен, который обязан своим появлением необходимости анализировать огромные массивы информации в мировом масштабе.

Big Data опираются на три V: volume (объём), variety (разнообразие) и velocity (скорость). С объёмом всё понятно. Разнообразие зависит от широты спектра источников, питающих базы данных. А скорость вообще главный показатель современного мира, который не останавливается ни на секунду.

А можно ли, к примеру, считать «большими данными» соцопросы, пусть даже охватывающие тысячи человек? Объём информации, которую можно получить из всевозможных опросов достаточно велик, но всё же не настолько, поэтому её можно отнести скорее к «средним данным». Наверное, если бы предвыборная аналитика охватывала миллионы респондентов, то это уже были бы «большие данные». Также Big Data может складываться из кирпичиков «маленьких данных».

Одним из трендов сегодня являются «быстрые данные». В современном мире всё происходит молниеносно. В приложениях и социальных сетях информация, которой 1–2 часа, уже не актуальна, на кону каждая секунда. Быстрые данные важны и для банковских приложений, и для приложений социальных сетей, и особенно для мессенджеров. Каждую секунду пользователи получают новые уведомления, на основе которых принимают важные для себя решения.

Для того, чтобы накопить «медленные данные», потребуется достаточно много времени. В отличие от быстрых данных, которые можно получить с помощью моментального опроса, медленные накапливаются буквально по крупице. Например, вы проводите опрос участников конференции по разработке. Каждый участник опрашивается до, во время и после мероприятия. Затем вся информация очень тщательно обрабатывается и суммируется.

А когда длительность накопления начнёт измеряться веками, медленные данные превратятся в «длинные». Так как эпоха Big Data началась сравнительно недавно, то сегодня длинные данные нужно искать не в интернете, а в книгах, манускриптах, на стенах памятников архитектуры и при археологических раскопках. Исторический аспект может оказаться очень важным для конкретного исследования!

Хотя данные и не пирожки, они могут быть «горячими» и «холодными». Здесь работает принцип «свежести»: более «свежие» — горячие — данные представляют бо̒льшую ценность. Для простого пользователя долгожданный комментарий в мессенджере «свежестью» в 10 секунд более важен, чем уже «холодный» комментарий, созданный 2 часа назад. Конечно, он ещё может быть полезен, например, чтобы уточнить какой-то факт из переписки: вспомнить название предложенной другом книги или фильма, уточнить время встречи, и так далее. Доступ к горячим данным должен быть постоянным. Холодные данные нужны нам не так часто, поэтому и постоянный доступ к ним — отнюдь не первая необходимость.

Помимо характеристики размера, скорости или температуры, данные могут классифицироваться и по их чистоте. «Грязными» называют такие данные, которые либо ошибочны, либо содержат неполную или непоследовательную информацию, и обычно они практически бесполезны. Грязные данные составляют большую часть информации, накопленной во многих компаниях. В то же время здесь могут попадаться настоящие информационные сокровища — ценные долгосрочные идеи. Но от грязных данных хватает и неприятностей. Как утверждают в компании GovTechWorks, такая неструктурированная и нерелевантная информация обходится американским компаниям в $6 миллиардов ежегодно!

Термин «ответственные данные», описывает ситуацию, когда накапливается только достоверная информация, которая берётся из проверенных источников, хранится и передаётся с соблюдением строгих мер безопасности.

«Толстые данные» — это следующий шаг после того, как мы наиграемся с big data: помимо количественных характеристик здесь учитываются и качественные. То есть одних только сухих цифр в гигантских объёмах уже недостаточно для глубокого понимания тенденций и протекающих процессов, для полноты анализа необходимо принимать во внимание такие вещи, как, например, человеческие эмоции.

Большие данные правят миром

При таком разнообразии определений возникает вопрос: какие же они на самом деле, эти данные? В первую очередь, большие, гигантские! Big Data собираются рядом с нами, вокруг нас и даже о каждом из нас. Маленькие песчинки медленно и верно формируют их.

На память сразу приходит популярная фраза «Большой брат следит за тобой». Из собираемых повсеместно обрывков информации складываются определенные базы данных, используемые для тех или иных исследований и манипулирования общественным мнением. Впоследствии вся полученная информация анализируется, и происходит так называемое гадание об исходе важных событий. Это гадание порождает всевозможные прогнозы по поводу побед на выборах, изменениям политической обстановки в стране, или колебаниях популярности какой-либо музыкальной группы среди молодежи.

Звание чемпионов по сбору Big Data заслужили такие три кита, как Google, Facebook и Amazon. Эти корпорации фиксируют малейший щелчок мышки каждого пользователя их порталов. И всё это ради глобального сбора информации. На большие данные возлагаются серьёзные надежды. Исследователи предрекают их огромное влияние на все отрасли человеческой жизни и деятельности. Не обошла эта участь и медицину, и науку.

Чем же Big Data могут быть полезны в медицине? Дело тут даже не в размере накопления информации, а в методиках её обработки и анализа. Объём медицинских данных в ряде сфер уже давно достиг размеров, что их проблематично не то что обрабатывать, а даже хранить. Самый яркий пример — расшифровка человеческого генома, состоящего более чем из 3 миллиардов знаков. На эту работу под эгидой Национальной организации здравоохранения США ушло 13 лет (с 1990 года по 2003-й). В 2017-м же, благодаря росту мощности компьютеров и развитию теоретического и программного инструментария, на подобную задачу потребуются недели, а то и дни.

Основной задачей больших данных в медицине является создание максимально полных и удобных реестров медицинской информации с возможностью взаимного обмена, что позволит повсеместно ввести полные электронные карты пациентов, содержащих всю медицинскую историю с момента рождения. Это позволит значительно оптимизировать работу учреждений здравоохранения.

Но давайте вернёмся к последним нашумевшим событиям, которые в прямом смысле этого слова перевернули мировой интернет — победа Дональда Трампа на выборах. Хотя его победа оказалась неожиданностью для множества людей, в том числе аналитиков и политтехнологов, вероятно, во многом это всё же закономерный результат грамотного использования больших данных.

Швейцарский журнал Das Magazin утверждает, что эту победу обеспечили пара ученых, Big Data и современные технологии. Некто Михаль Косински разработал уникальную систему, которая позволяет выяснить максимум информации о человеке только лишь по его лайкам в соцсетях — так называемый «микротаргетинг». Позднее разработка Косински, против его желания, начала использоваться в крупных политических играх. Позже та же система сработала в предвыборной кампании американского бизнесмена. Никто и не догадывался о связи политика с аналитической компанией, ведь на столе Дональда нет даже компьютера. Но нынешний президент США выдал себя сам. Он написал в своём аккаунте Твиттер, что скоро его будут называть Mr. Brexit.

В своей предвыборной кампании Хиллари Клинтон действовала традиционно — обращалась к разным группам населения страны, составляя отдельные обращения к чернокожему населению и женщинам. Cambridge Analytica действовали по-другому. Закупив базы данных совершеннолетних жителей США, они изучали каждого из них по методу OCEAN, учитывая личные предпочтения и интересы. В зависимости от своего характера и склада ума, каждому человеку из баз данных отправлялись послания с призывом проголосовать за клиента Cambridge Analytica, причём обоснование было подобрано в зависимости от ранее построенного индивидуального профиля адресата. Некоторые из сообщений даже были построены на принципе противоречия, и предлагали голосовать за Хиллари.

Косински, учёный, придумавший систему микротаргетинга, пока лишь наблюдает за таким использованием его разработки со стороны. По словам Михаля, не его вина в том, что изобретение стало бомбой в чужих руках. Надо подчеркнуть, что публикация швейцарского журнала подверглась критике со стороны многочисленных европейских СМИ, которые заявляют о бездоказательности приведённой информации.

Пока обсуждается вопрос о том, действительно ли большие данные повлияли на выборы в США, эти данные продолжают изучаться и систематизироваться. Берегитесь социальных сетей — кто знает, за кого вы ещё проголосуете или что побежите покупать, испытав на себе воздействие больших данных?