Palantir: торговля оружием и распространение пандемии

Как данные в руках разведчиков аналитиков Palantir превращаются из неструктурированных в структурированные.

Вместе с компанией Edison продолжаем расследование возможностей системы Palantir.
f417c86724de4179b827b00a6beea418.jpg

Palantir — частная американская компания, четвертый по капитализации (после Uber, Xiaomi и Airbnb) стартап в мире (данные на начало 2016 года). Основные заказчики — ЦРУ, военные, ЦКЗ и крупные финансовые организации.

По-моему, как-то так видели пользу информационных технологий «отцы-основатели» Вэнивар Буш («As We May Think»), Дуглас Энгельбарт («The Mother of All Demos») и Джозеф Ликлайдер («Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»), о которых я писал немного ранее.

Под катом — два кейса (2010 года).

  • Первый — анализ распространения вируса во время национальной пандемии на основе пятнадцати миллионов записей обращений в больницу и трехсот пятидесяти семи тысячах записей о смерти.
  • Второй — анализ сотни отчетов из расследования по глобальной сети торговцев оружием.


(За помощь с переводом спасибо Ворсину Алексею)

VAST 2010 Challenge, Pt. 1

00:00 Эта презентация покажет как Palantir, применяя анализ, превращает неструктурированные данные в структурированные. Для этой цели будут использованы отчеты по глобальной сети торговцев оружием.
00:10 Мы покажем, как территориальный, временной, социальный и некоторые другие анализы могут ответить на вопросы разведки об этой сети.

d69369f9392e450c932d4aa421679350.jpg

00:17 Эти значки на графе представляют собой около сотни отчетов из нашего расследования.
00:25 «Облако текста» (textcloud) поможет нам выделить ключевые слова из этих отчетов.

e4b5d3a018434115b985055259e65931.jpg

00:28 Некоторые термины проявляются: оружие, ствол, купить, Карачи, Пакистан и так далее, — что заставляет предположить, что эта сеть связана с Ближним Востоком и Южной Азией.
00:37 Давайте перенесем эти документы на карту.

cc3fa05e14e140f0a40b26c2b0a8e56c.jpg

00:42 Документы были распределены согласно географическим наименованиям, указанным в них. Мы так же можем использовать здесь Timeline, чтобы посмотреть расположение документов по дате создания.
00:50 Теперь давайте очистим карту и поищем документы из Пакистана, одного из самых популярных результатов облака текста.

000a3956bb2448e5bbaac18f41a5e5ae.jpg

00:57 Этот поиск приносит некоторое количество документов, давайте посмотрим их через браузер.
01:01 В браузере аналитик может структурировать информацию, присваивая ей теги. Давайте выделим Малона Хаг Бухари.

284629785484462eb2848c09d4f7e02f.jpg

01:10 Palantir автоматически ищет объекты, которые уже присутствуют в базе данных, мы также можем создать новый объект, и выбираем ему особые свойства, чтобы присвоить тег надлежащим образом.
01:19 Голубая линия под текстом показывает некую сущность, к которой мы только что присвоили тег.
01:23 Двойное нажатие на тег открывает полное досье объекта, его свойства, связанные файлы медиа, историю объекта и список всех источников данных.

453bed10e9cd43ce979352923d954bb4.jpg

01:35 Чтобы создать связи между объектами с тегами в тексте, мы просто перетягиваем одно на другое, а затем выбираем получившейся связи особые свойства.

df4880679584499fad125a52e5abefee.jpg

01:45 В полностью тегированном документе цвет и линии указывают на связи с существующими сущностями, событиями и взаимоотношениями.
01:51 Давайте теперь добавим данные, которые мы структурировали в документах, относящихся к Пакистану, на граф.

ca0bffbd5a884befb1ad017d4c2ed95b.jpg

01:57 На графе аналитик использует различные инструменты, чтобы анализировать данные.

8b50ad46fd41491993569a657f11bc1a.jpg

02:00 Здесь сущности и события из Пакистанских тегов. Используя гистограмму, мы заполнили граф людьми, и аналитик теперь может использовать инструмент поиска взаимоотношений между сущностями, которые могут проявиться из документов, тегированных другими аналитиками из нашей компании.
02:17 После постройки графа ключевых сущностей и событий пакистанской сети, мы можем использовать timeline, чтобы понять временные аспекты активности сети, которые включают в себя полеты, встречи, платежи, и тому подобное.

0589dbe1cf00407a9d2ad44c8197fdbf.jpg

02:30 Аналитик также может поделиться графом с другими аналитиками компании, здесь мы можем увидеть расшаренные графы из Пакистана, Латинской Америки и Дубая.

50fb5ffed6ea474d929732717044645d.jpg

02:40 Давайте посмотрим на граф мировой сети торговцев оружием, который включает в себя сущности и связи из всех тегов документов, присвоенных нашей командой.

72b02dc3bed24971b44a32531aee344e.jpg

02:49 Мы используем помощник социальных связей, чтобы идентифицировать ключевые точки для будущих расследований в нашей всемирной сети.

2f6287beb90446f8bbb99834a4ec96d9.jpg

02:56 Давайте добавим выделение цветом. Теперь мы видим, что Дубай, Бухари и Домбровский являются важными точками пересечения в этой сети.

d5d67d851fc246bbae55e27b3f9df769.jpg

03:03 Перетащив все это на карту, мы можем увидеть всю активность сети географически и во времени, если используем Timeline.
03:10 Это дает широкий взгляд на то, когда и где каждая ячейка действует.

8c105401cb334b6ab4f8cadb970a308e.jpg

03:15 Для примера, ОАЭ играют важную роль, многие из наших целей встречались здесь в апреле.
03:21 Структурируя данные из неструктурированных отчетов и используя для достижения цели инструменты анализа данных Palantir, наша команда добилась ясного отображения сети торговли оружием в нескольких странах и указала место переговоров руководителей сети.

VAST 2010 Challenge, Pt. 2

Записи госпитализации: Характеристика распространения пандемии.

00:00 Эта презентация покажет, как мы используем анализ «Горизонт» в Palantir, чтобы проанализировать распространение вируса во время национальной пандемии.

c75cda1f02544eed88451e9b51dbc8d5.jpg

00:05 «Горизонт» разработан для анализа больших объемов данных и сейчас будет использован для быстрой визуализации и анализа пятнадцати миллионов записей обращений в больницу и трехсот пятидесяти семи тысячах записей о смерти. Исходные данные были разделены по симптомам и введены в систему.

fb44511c1965446f8d7d962bd15c924d.jpg
Написано: «Горизонт» разработан для анализа на двух экранах. Видео будет переключаться между окном дерева анализа и окном визуализации.

00:20 Пожалуйста, обратите внимание, что время на обработку запросов не включено в видео.
00:23 Давайте начнем с просмотра нескольких базовых гистограмм, чтобы получить общий взгляд на данные.

438d290764f64009af647c3725660d2a.jpg

00:27 Эта гистограмма госпитализации по возрасту, которая дает почти идеальный график распределения с вершиной на отметке сорок четыре года.
00:33 Это ненормально, так как мы ожидали большего количества визитов в госпиталь в возрасте до сорока лет, основываясь на данных о типичном распределении по возрасту и состоянию здоровья.

2a9bb9d6b4394756996e77fbb1f9a9df.jpg

0:43 Сейчас мы используем пакетную гистограмму визитов в больницу пациентов, которые позже умерли, чтобы определить симптомы, которые наиболее часто приводили к смерти.
00:53 Тремор и потеря слуха, как пример симптомов, связанных со смертью.
00:56 Чтобы исследовать временные закономерности болезни, создадим гистограмму визитов в больницу по дням, отфильтруем по смертям и создадим еще одну гистограмму смертей по датам.
01:12 Есть незначительное увеличение количества обращений в мае, и в это же время увеличилось число смертей.

ad6fac64771e434f8ebda98c647e0613.jpg

01:22 Чтобы выявить временные закономерности болезни, будет полезно узнать сколько времени проходило между моментом обращения в больницу и смертью.
01:29 Мы можем сделать это, добавив новое свойство, которое находит разницу между датой смерти и датой обращения.

6a031178dd5341dbb715c5725c6f3dee.jpg

01:38 Мы можем теперь создать гистограмму с этим новым свойством. Она показывает, что почти все смерти случались на восьмой день после госпитализации, что, гипотетически, может быть характеристикой вируса пандемии.
01:51 Сосредоточившись на указанных смертях, мы можем создать гистограмму наиболее часто встречающихся симптомов.
01:58 Рвота и боли в животе, — самые популярные результаты.

cee64d91959e4a5282768020ef8c66e2.jpg

02:05 Давайте используем тепловую карту, чтобы увидеть в каких географических областях больше всего фатальных исходов.
02:12 В Пакистане много смертей, в то время как в Таиланде и Турции сравнительно немного.

8a6345cb1677468e80189b3abb9acf02.jpg

02:20 Создадим график рассеивания (scattergram) по дням и местностям, что даст представление об интенсивности болезни во времени.
02:34 Мы можем видеть, что в Таиланде и Турции постоянно низкое количество смертей, тогда как в других местах смертность достигает пика и снижается.

92a39651aa38465885611a9cb0416722.jpg

02:45 Сравнив полученный график с гистограммой распределения смертей по датам, мы можем понять, когда начиналась пандемия.

8edd8473a6564c8383506a0bd8eb9d88.jpg

02:57 С этим новым подмножеством мы можем создать новый график рассеивания для госпитализаций, чтобы увидеть как болезнь распространялась во времени по местности.

c71625c897844b9b8bd8d7652fd899b9.jpg

03:07 Мы видим что Кения, Пакистан и Сирия — страны с наиболее ранними вспышками болезни.
03:15 Для более точных сведений о распределении болезни по времени и месту, мы можем обратиться к данным о смертях по каждой территории.

8a0572776ace412e97ef2b833bb40447.jpg

03:25 Выбрав данные по Пакистану, например, мы можем создать гистограмму госпитализаций по датам из подмножества пациентов, которые, как мы подозреваем, умерли от пандемии.

452da62f2bd34bc7b9b7a73a539167fe.jpg

03:38 Используя Горизонт Palantir, мы получили возможность быстро импортировать, анализировать и визуализировать данные о пандемии, идентифицировать аномалии и охарактеризовать природу и развитие во времени этой болезни.

Еще про Palantir:

Вместе с компанией Edison продолжаем весенний марафон публикаций.

Я постараюсь докопаться до первоисточников IT-технологий, разобраться, как мыслили и какие концепции были в головах у первопроходцев, о чем они мечтали, каким видели мир будущего. Для чего задумывались «компьютер», «сеть», «гипертекст», «усилители интеллекта», «система коллективного решения задач», какой смысл они вкладывали в эти понятия, какими инструментами хотели добиться результата.

Надеюсь, что эти материалы послужат вдохновением для тех, кто задается вопросом, как перейти «от Нуля к Единице» (создать что-то, чего раньше и в помине не было). Хочется, чтобы IT и «программирование» перестали быть просто «кодингом ради бабла», и напомнить, что они задумывались как рычаг, чтобы изменить методы ведения войны образование, способ совместной деятельности, мышления и коммуникации, как попытка решить мировые проблемы и ответить на вызовы, вставшие перед человечеством. Как-то так.

0 марта. Сеймур Пейперт
1 марта. Xerox Alto
2 марта «Позвоните Джейк». История NIC и RFC
3 марта Грэйс «бабуля COBOL» Хоппер
4 марта Маргарет Гамильтон: «Пацаны, я вас на Луну отправлю»
5 марта Хеди Ламарр. И в кино обнаженной сняться и во врага торпедой пульнуть
7 марта Великолепная шестерка: девушки, которые термоядерный взрыв рассчитывали
8 марта «Видеоигры, я ваш отец!»
9 марта С днём рождения, Джеф Раскин
14 марта Джозеф «Lick» Ликлайдер: «Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»
15 марта Вэнивар Буш: «Как мы можем мыслить» (As We May Think)
16 марта С днем рождения, Ричард Столлман
21 марта Дуглас Энгельбарт: «The Mother of All Demos». Часть 1

© Habrahabr.ru