Выделение ключевых слов из массивных названий страниц
Проблема, которая была и остается достаточно актуально по сей день. Однако наша зада немного более специфична.
И так, что у нас есть?
На входе у нас объем названий страниц (порядка 30 тыс.) совсем не читабельного вида (Например: «Произведенный газ и услуги по распределению газообразного топлива по магистралям»), ясно что никакой здравомыслящий человек не будет искать такого в поисковых системах (однако информация содержащаяся на данных страницах релевантная, правда, основная часть — это статистика).
А чего мы хотим?
Подобрать наиболее правильные ключевые слова к каждому названию, не использую ручную работу.
Интересно что из этого получилось?