Роль больших данных в частных расследованиях и анализе

09cb201d0d764d30b115521276b6693f.jpgВ ноябре 2013 журнал New Yorker опубликовал статью о некоем Эллиоте Хиггинсе. Но своим читателям в Twitter он известен под ником Brown Moses. Будучи в то время безработным финансистом и администратором, Хиггинс с умом использовал широкие возможности, предоставляемые огромным валом всевозможной информации, постоянно распространяемой в интернете.

Не являясь военным или представителем любой другой силовой структуры, владея исключительно гражданскими профессиями, Хиггинс был окрещён журналистами «вероятно, лучшим экспертом по вооружению, применяемому в ходе войны в Сирии». Крайне лестный эпитет для человек, в жизни не имевшего отношения ни к оружию, ни к разведке. Каким же образом безработный «белый воротничок» удостоился такого признания от уважаемого издания?

Разведка по открытым источникамХиггинс не говорит по-арабски и никогда не был на Среднем Востоке. Однако это не помешало ему овладеть огромным объёмом информации об участвующих в сирийском конфликте сторонах, и проводить глубокий анализ. А его рабочим инструментом был всего лишь компьютер с доступом в интернет. Все данные Хиггинс собирает сидя у себя дома в г. Лестер, Великобритания. При этом все эти онлайн-расследования являются для него лишь хобби. Широкой общественности Хиггинс стал известен в 2012 году, когда завёл свой блог и опубликовал аналитическую информацию, согласно которой сирийская армия использовала кассетные бомбы, а также выявил канал доставки вооружения из Ирана в Сирию. И всё это он сделал лишь с помощью ноутбука и внимательного отношения к деталям.aa1b3744fcc64b58b6baa3c515aaaf40.jpg

Эту работу можно охарактеризовать как «разведку по открытым источникам». Конечно, разведслужбы всего мира занимались этим испокон веков, но теперь это доступно любому обывателю. Хиггинс собирает информацию из источников, находящихся в открытом доступе: фотографии, видео, посты в соцсетях. Собирая по крупицам и сопоставляя данные, он кропотливо собирает их в общую картину. В результате Хиггинс даже начал публиковаться в The Guardian и вести блог в The New York Times, а на его исследования ссылается Human Rights Watch. Сочетание таланта к ведению блогов и сильное желание отделить факты от вымыслов, принесло «разведчику»-одиночке международное признание.

613d9709fb2842b389f7547e986f1029.jpg

Если же подняться на более высокий уровень, то эта частная история успеха демонстрирует невероятный потенциал «разведки по открытым источникам». Мы вступили в эру, когда объём и разнообразие информации в сети позволяет любому человеку выстраивать истинную картину событий и взаимосвязей, что ранее было доступно лишь спецслужбам с их агентурной сетью и средствами перехвата и прослушивания. Теперь любая информация, попадающая в сеть, в правильных руках может стать мощным инструментом для анализа тайных и неочевидных явлений.

Роль больших данных Возникновение феномена «разведки по открытым источникам» стало возможно благодаря сочетанию двух важных факторов.Во-первых, взрывной рост соцсетей обеспечил доступ к контенту, обильно генерируемому пользователями. При желании и определённом везении любой житель планеты может заполучить гигантскую аудиторию по всему миру. С увеличением числа пользователей и развитием социальных инструментов, всё больше людей «делятся» с сетью своими мыслями, мнениями и наблюдениями. Этот процесс генерации информации привёл к появлению «цифровых сообществ» огромного размера и в невероятном количестве.

17b1cca5505c4b8d9ef0a95463baca17.jpeg

Во-вторых, становление больших данных полностью изменило масштаб доступной каждому человеку информации для анализа. Самим термином «большие данные» зачастую ошибочно описываются «совокупность информации, по размерам достигающая объёма приличной базы данных». По некоторым оценкам, в сети сейчас хранится около 1200 экзабайт информации, и 90% из этого количества было создано за последние два года.

Социальные медиа являются хорошим примером генератора больших данных. Например, пользователи Twitter создают порядка 500 миллионов сообщений в день. Также ежедневно публикуется около 90 миллионов постов на Tumblr. Каждую минуту на Youtube загружается свыше 100 часов видео. Социальные медиа — это настоящая информационная вселенная.

9622a6ca1deb429a8f8885364ba66bef.jpg

Это гигантское сложнейшее цифровое сообщество породило новые возможности и подходы к аналитике. Бурлящая активность, — от ежедневного поддержания порядка на сетевых ресурсах до гражданских войн и борьбы с терроризмом, — формирует новый взгляд на протекающие в мире процессы. В этом океане информации найти что-то нужное бывает куда сложнее, чем пресловутый инструмент для шитья в высушенных стеблях и листьях травянистых растений. Но всё же это возможно.

Тот же Хиггинс просматривает многие часы видео, загруженного на Youtube, выделяя полезные данные и подвергая их перекрёстному сравнению с информацией, почерпнутой на других сайтах. Но его подход — лишь один из многих возможных. Он словно плотник из старинных времён, работающий исключительно топором, в сравнении с бригадой строителей. На ниве анализа больших данных, находящихся в открытом доступе, подвизаются и высокотехнологичные методы анализа с использованием последних достижений в информатике и вычислительной технике. И между «ручной» работой Хиггинса и автоматизированными программно-аппаратными комплексами лежат различные методы, комбинирующие самостоятельные исследования с применением бесплатных аналитических инструментов.

В отчёте исследовательской компании Demos на примере Twitter демонстрируются богатые возможности, предоставляемые соцсетями в полицейских расследованиях. Опубликованные сообщения и история изменения статусов может навести на улики и доказательства, а также стать своеобразной шкалой измерения накала страстей между всеми сторонами, участвовавшими в инциденте. И в ряде случаев постоянный мониторинг наиболее активных бесед может помочь в предотвращении противоправных действий. Но здесь уже легко вступить на скользкую дорожку оправдания тотальной слежки со стороны государства.

35795ae4ebfe45aab8dbdc3756c1fc34.jpg

Надо отметить, что системы автоматизированного анализа не относятся к сфере «разведки по открытым источникам» в обычном её понимании. Скорее, это уже из области радиоэлектронной разведки. Вероятно, по этой причине исследователи, специализирующиеся на анализе социальных медиа, придумали отдельный термин для своей работы: social media intelligence, SOCMINT (разведка в социальных медиа). Однако по сути дела, это всё же разведка по открытым источникам в том смысле, что вся необходимая информация черпается из публично доступных мест.

Фактически, развитие технологий вдохнуло в это явление новую жизнь. Вполне возможно, что в скором времени мы станем свидетелями расцвета индустрии малого бизнеса, построенного на целевом анализе общедоступных больших данных.

© Habrahabr.ru