Эволюция алгоритма Test The Text
Test The Text выделяет стоп-слова в тексте. Стоп-слова делают текст тяжелее, слабее, длиннее. Стоп-слова делятся на несколько категорий: — модальные глаголы; — усиляющие и обобщенные определения и наречия; — клише и канцеляризмы; — гиперонимы; — паразиты времени; — отглагольные существительные; — пассивный залог; — наречия; — причастные обороты. Прототип выделял модальные глаголы, используя список «мочь», «долженствовать» и «нуждаться» во всех формах: 'modal': { 'can': u»«могу, мог, могла, можешь, может, могло, можем, можете, могли, могут, смог, смогла, смогли, сможет, можно, нужен»«, 'need': u’нуждаться, нуждается, нужно, нужна, нужны', 'should': u’должен, должна, должны, должно', 'other': u’стоит, обязан, следует, необходимо, требуется' }, Читать дальше →