Получаем сертификат ЦРУ перебирая архивы
В случае с данным сервисом задача немного отяжеляется тем, что он перегружен, и сейчас пользоваться CDX сервером Common Crawl крайне затруднительно. Тем не менее я опишу как это делается.
Для начала нам необходимо выбрать версию архива (Common Crawl обновляет архивы раз в месяц или два). К примеру мы выбрали версию за Март\Апрель 2023, в этом случае аналогичный запрос будет выглядеть следующим образом:
https://index.commoncrawl.org/CC-MAIN-2023-14-index?url=*.cia.gov/*&output=json&limit=10&filter=mimetype:image/jpeg&collapse=urlkey
Как и ожидалось, сервера Common Crawl на момент написания статьи всё ещё перегружены и 504 Gateway Time-out
-ают меня