Структурированную базу «Панамского архива» выложили в открытый доступ

Самая масштабная утечка документов в истории интернета: 2,6 терабайта


0d6eea0268b74f50bea807a0e83e49de.png

Международный консорциум журналистов-расследователей (ICIJ) выложил в свободный доступ «Панамский архив»: крупнейшую базу данных об офшорных компаниях, полученную с компьютеров панамской юридической фирмы Mossack Fonseca неизвестными лицами.

Аноним John Doe передал репортёрам немецкой газеты Süeddeustche Zeitung 2,6 терабайта файлов — электронные таблицы, тексты писем, PDF, TIFF и другие форматы, в том числе древние и уже неиспользуемые. Понимая масштаб работы, те попросили ICJI организовать международный совместный проект.
Миллионы графических изображений прогнали через программу распознавания символов Tesseract на 40 временных серверах в облаке Amazon. Для индексации текста использовали Apache Solr, для обработки документов в разных форматах — Apache Tika.

В течение года архив изучали 370 репортёров из 80 стран мира. Чтобы облегчить им работу, разработчики из ICIJ подключили графический интерфейс от библиотечной программы Project Blacklight. Чтобы показывать информацию в графическом виде и отображать связи между объектами, пришлось использовать проприетарную программу Linkurious, а с помощью инструмента Talend содержимое реляционной SQL базы Mossack Fonseca перевели в формат Neo4j.

b3686d04d6c3432682e5098442f2e0f1.png

Сейчас результат труда разработчиков предлагается оценить всем желающим через интернет.

База ICIJ в структурированном виде доступна по адресу:
https://www.occrp.org/en/panamapapers/database.html

Можно скачать копию на свой компьютер (35,7 МБ в архиве).

586cd8921593454ea63c0f5574e94282.jpg

БД содержит информацию о почти 214 000 офшорных фирмах в 21 офшорных юрисдикциях, в том числе 11 516 фирмах, которые принадлежат 6285 российским гражданам. Среди них — родственники и друзья высокопоставленных чиновников. Такая масштабная утечка документов может привести к ряду громких отставок и уголовных дел, хотя офшорные фирмы зачастую действуют в сером юридическом поле, не нарушая законодательство.

Опубликована лишь часть информации из 11,5 млн файлов, которые удалось получить с компьютеров юридической компании Mossack Fonseca, одного из крупнейших в мире генераторов фирм-однодневок.

Международный консорциум журналистов-расследователей не публикует всю имеющуюся информацию, здесь нет исходных документов или большой базы с персональной информацией, не указаны банковские счета фирм, содержимое электронной переписки и финансовые транзакции компаний.

Обнародованы только названия фирм, их юрисдикции, почтовые адреса и имена руководителей офшорных компаний. Данные охватывают период с 1977 по 2015 годы.

База данных «Панамского архива» опубликована под свободной лицензией Creative Commons Attribution-ShareAlike. Международный консорциум журналистов-расследователей приглашает всё сообщество направить усилия на изучение и классификацию опубликованной информации.

© Geektimes