Частотный словарь запрещенных сайтов

сегодня в 18:22

f29b8426da1248dcb64cf4c6192cb68f.png

Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.

Из открытых источников был получен список ссылок, находящихся в реестре на момент проведения исследования. Всего в списке 24515 ссылок.

По каждому url мы делали get-запрос из страны, не имеющей законодательных ограничений на подобные деяния.

Ответы серверов распределились следующим образом:

9c7b2ca1be094e27a134c663a622ce84.png

Большинство сайтов вполне себе функционируют и переоценивать собственные взгляды на жизнь не собираются. Многие используют фаерволы, отсекая потенциально опасных (по их мнению) посетителей. Значительное количество просто ставит редирект на свежий белый домен.

Пара слов об «абузоустойчивости». Взглянем на распределение по tld (только 200 OK):

bc554448412d482e8b88bea1a926603e.png

Не менее интересно распределение по странам, в которых физически находятся заблокированные ресурсы:

e347c1e6c625400fa49b8a3a8750142b.png

e2ca01131c81488b87384610b777229a.png

Скачать полный частотный словарь (436898 элементов)

Статья не направлена на пропаганду чего-либо, а лишь отражает существующую реальность. Полученный материал, возможно, окажется полезным кому-либо для проведения собственных исследований.

07a7ed37526daf5e300b16e1e5b84482.jpg

Пользователь

© Habrahabr.ru