[Из песочницы] Разбиение веб-страниц на семантические блоки
Пример работы алгоритма на сайте Автокадабра.Задача Наверное, все знают про сервис «Вебвизор», который позволяет записывать действия посетителей вашего сайта и просматривать их в режиме видео. Инструмент интересный, но когда на сайте много посетителей, составить картину жизни сайта проблематично, каждый ролик не посмотришь, и сгруппировать их нельзя. Гораздо полезней отследить взаимодействие посетителей с сайтом, выяснить чем живёт сайт, с возможностью охватить одновременно множество посетителей. В итоге, появилась идея записывать информацию в виде осмысленного списка действий посетителей: Dima: переход на сайт с поисковой системы Yandex RU по запросу sepyra (3 м. 10 сек. назад) Dima: переход со страницы «Веб-аналитика Sepyra | Официальный сайт» на страницу «О системе | Веб-аналитика Sepyra (1 м. 30 сек. назад) Dima: выделение текста «времени» в блоке «Одна из ключевых особенностей веб-аналитики Sepyra — возможность… кто хочет быть в курсе каждого шага посетителей» (40 сек. назад) Dima: средний интерес к подблоку «Подключиться» в блоке «Тарифы О системе FAQ Контакты Русский English Подключиться Войти» (20 сек. назад) Dima: заполнение/изменение поля «Ваше имя» в форме «Регистрация» (10 сек. назад) Запись состоит из двух частей: блок в котором происходит действие посетителя и само действие, например — выделение текста «времени» в блоке «Одна из ключевых особенностей …». Для этого описания необходимо определить блок на странице и его имя. Если с именем было более-менее понятно, то над выделением блоков пришлось подумать.Читать дальше →