Cognitive представил систему для анализа и сравнения текстов
Компания Cognitive Technologies представила систему автоматического анализа и сравнения текстов Cognitive Text Analyzer, созданную на многолетних разработках. Система предназначена для определения авторства текста и выявления плагиата.
Принцип работы Cognitive Text Analyzer состоит в следующем. В систему вводится исследуемый текст. Далее программа проводит синтаксический, семантический и структурный разбор и анализ текста, устраняет синтаксические и семантические неоднозначности и выявляет порядка сотни характеристик, присущих данному тексту. Скорость разбора текста на современном офисном компьютере составляет 450-500 страниц текста в минуту.
В отличие от существующих систем проверки на плагиат, использующих признаки, которые можно рассчитать вручную (например, среднее количество слов в предложении, среднее число прилагательных и т.п.), решение от Cognitive учитывает не только и не столько грамматические категории, выделенные в тексте, сколько структурные связи, подчиненность одних конструкций другим в рамках предложения. Как показали исследования, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Например, если в басне Крылова «Ворона и лисица» заменить «ворону» на «корову», «лисицу» на «синицу», а «сыр» на «сервелат», то Cognitive Text Analyzer, несмотря на это с высокой долей вероятности подтвердит близость измененного текста к оригиналу. Аналогичная оценка будет и в случае, если в тексте переставить местами абзацы.
Основной модуль анализа и разбора текста Cognitive Text Analyzer находится в открытом доступе на интернет-сайте компании. Данная технология уже сегодня привлекает большое внимание исследователей в сфере лингвистики как из России, так и из стран СНГ и ряда зарубежных стран (США, Франция, Великобритания).
© CNews