Выделение ключевых слов из массивных названий страниц

Проблема, которая была и остается достаточно актуально по сей день. Однако наша зада немного более специфична.


И так, что у нас есть?
На входе у нас объем названий страниц (порядка 30 тыс.) совсем не читабельного вида (Например: «Произведенный газ и услуги по распределению газообразного топлива по магистралям»), ясно что никакой здравомыслящий человек не будет искать такого в поисковых системах (однако информация содержащаяся на данных страницах релевантная, правда, основная часть — это статистика).
А чего мы хотим?
Подобрать наиболее правильные ключевые слова к каждому названию, не использую ручную работу.

Интересно что из этого получилось?

© Habrahabr.ru