Как собрать базу организаций за час
Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.
В своей работе я использовал данные из открытых источников, а именно:
Большое спасибо ребятам из ИТСОФТ, они большие молодцы — данные должны быть открытыми. Однако, эти архивы ФНС РФ предоставляет за 300 000р. в год.
Давайте получим данные об организациях Свердловской области, ведущих свою деятельность в строительной сфере.
Итак, начнем.
1) Получаем входные данные
С сайта ЕГРЮЛ ИТСОФТ скачиваем данные ФНС:
Архив доходов и расходов за 2011–2020 года;
Архив кодов ОКВЭД;
Архивы промежуточных данных (для удобства обновления данных);
Архивы организаций и обновления к ним.
Из архива данных организаций получаем следующую таблицу:
Данные организаций ФНС
Соединяем её с архивом доходов и расходов, выбрав при этом значения за 2020 год.
В архиве кодов ОКВЭД смотрим идентификаторы, которые соответствуют строительной сфере (3327 — 3286).
Фильтруем данные по следующим параметрам:
Соответствие ОКВЭД;
Регион — Свердловская область (66);
Дата окончания деятельности — должна быть нулевая (0000–00–00);
Доходы — выше 600 000 рублей за 2020 год.
После этих действий удаляем дублирующиеся записи и ненужные колонки в таблице.
Отфильтрованная база организаций
Уже 2758 организаций!
2) Хорошо, теперь обогащаем данные
Парсим почту, сайт и телефоны с сайта Чекко. Это сделаем, подставляя ОГРН или ИНН в базовую ссылку поиска: »/search? query=». Советую поставить задержку между запросами в 0.5 секунды, чтобы получать корректные данные.
Парсинг данных с Чекко
Собираем полученные данные воедино с основной таблицей. Вуаля! Вы получили актуальную базу данных строительных организаций Свердловской области!
На формирование данной базы у меня ушло около 1 часа, включая работу парсера. Всего получилось 1554 организации с контактной информацией.
Надеюсь, статья была интересная.