Эволюция алгоритма Test The Text

Test The Text выделяет стоп-слова в тексте. Стоп-слова делают текст тяжелее, слабее, длиннее. Стоп-слова делятся на несколько категорий:  — модальные глаголы;  — усиляющие и обобщенные определения и наречия;  — клише и канцеляризмы;  — гиперонимы;  — паразиты времени;  — отглагольные существительные;  — пассивный залог;  — наречия;  — причастные обороты. Прототип выделял модальные глаголы, используя список «мочь», «долженствовать» и «нуждаться» во всех формах: 'modal': { 'can': u»«могу, мог, могла, можешь, может, могло, можем, можете, могли, могут, смог, смогла, смогли, сможет, можно, нужен»«, 'need': u’нуждаться, нуждается, нужно, нужна, нужны', 'should': u’должен, должна, должны, должно', 'other': u’стоит, обязан, следует, необходимо, требуется' }, Читать дальше →

© Habrahabr.ru