Поиск сайтов заданной тематики

сегодня в 00:41

Для исследования рынка иногда нужно найти все сайты заданной тематики. Например, все сайты, про лекарства такие как med.sputnik.ru, aptekamos.ru и poisklekarstv.ru или все новостные сайты похожие на lenta.ru, vedomosti.ru или meduza.io.

За разумное время такую задачу можно решить с помощью графа похожих сайтов.
4810f2189ec0427a9ef15182d810b866

Идея такая: вручную набираем несколько сайтов, которые точно нам подходят, как-то для каждого находим похожие, проверяем их вручную, подходящие добавляем в набор, повторяем процедуру. Если на каждом шаге аккуратно отбирать сайты, то процесс рано или поздно сойдётся, граф похожих сайтов замкнётся.
2661e0f0f126441fa1f83c643415bc52.gif

Похожие сайты можно искать в Гугле c помощью ключевого слова related, брать у Алексы и Similarweb.

Чтобы не тратить время на выгребание подходящих, но мелких сайтов, нужно следить за тем, как меняется суммарный трафик на сайты из набора. Обычно он выходит на плато гораздо раньше, чем число сайтов в наборе.

Потом граф можно использовать, чтобы примерно понять структуру тематики. Например, новостные сайты бывают про игры:
d2b2706c3cbe4324942b4675671d726a
Про религию:
ba73068415b04023a4ae5df07bf7cae2
Про науку:
46da37c6415749f991997003f6776c24

© Habrahabr.ru