Структурированную базу «Панамского архива» выложили в открытый доступ
Самая масштабная утечка документов в истории интернета: 2,6 терабайта
Международный консорциум журналистов-расследователей (ICIJ) выложил в свободный доступ «Панамский архив»: крупнейшую базу данных об офшорных компаниях, полученную с компьютеров панамской юридической фирмы Mossack Fonseca неизвестными лицами.
Аноним John Doe передал репортёрам немецкой газеты Süeddeustche Zeitung 2,6 терабайта файлов — электронные таблицы, тексты писем, PDF, TIFF и другие форматы, в том числе древние и уже неиспользуемые. Понимая масштаб работы, те попросили ICJI организовать международный совместный проект.
Миллионы графических изображений прогнали через программу распознавания символов Tesseract на 40 временных серверах в облаке Amazon. Для индексации текста использовали Apache Solr, для обработки документов в разных форматах — Apache Tika.
В течение года архив изучали 370 репортёров из 80 стран мира. Чтобы облегчить им работу, разработчики из ICIJ подключили графический интерфейс от библиотечной программы Project Blacklight. Чтобы показывать информацию в графическом виде и отображать связи между объектами, пришлось использовать проприетарную программу Linkurious, а с помощью инструмента Talend содержимое реляционной SQL базы Mossack Fonseca перевели в формат Neo4j.
Сейчас результат труда разработчиков предлагается оценить всем желающим через интернет.
База ICIJ в структурированном виде доступна по адресу:
https://www.occrp.org/en/panamapapers/database.html
Можно скачать копию на свой компьютер (35,7 МБ в архиве).
БД содержит информацию о почти 214 000 офшорных фирмах в 21 офшорных юрисдикциях, в том числе 11 516 фирмах, которые принадлежат 6285 российским гражданам. Среди них — родственники и друзья высокопоставленных чиновников. Такая масштабная утечка документов может привести к ряду громких отставок и уголовных дел, хотя офшорные фирмы зачастую действуют в сером юридическом поле, не нарушая законодательство.
Опубликована лишь часть информации из 11,5 млн файлов, которые удалось получить с компьютеров юридической компании Mossack Fonseca, одного из крупнейших в мире генераторов фирм-однодневок.
Международный консорциум журналистов-расследователей не публикует всю имеющуюся информацию, здесь нет исходных документов или большой базы с персональной информацией, не указаны банковские счета фирм, содержимое электронной переписки и финансовые транзакции компаний.
Обнародованы только названия фирм, их юрисдикции, почтовые адреса и имена руководителей офшорных компаний. Данные охватывают период с 1977 по 2015 годы.
База данных «Панамского архива» опубликована под свободной лицензией Creative Commons Attribution-ShareAlike. Международный консорциум журналистов-расследователей приглашает всё сообщество направить усилия на изучение и классификацию опубликованной информации.