[Из песочницы] Реализация алгоритма шинглов на Node.JS. Поиск нечетких дубликатов для английских текстов

При работе с информацией часто возникают задачи парсинга веб-страниц. Одной из проблем в этом деле является определение похожих страниц. Хороший пример такого алгоритма — «Алгоритм шинглов для веб-документов». Часть проекта по парсингу реализована на Node.JS, поэтому и алгоритм нужно было реализовать на нем. Реализаций на javascript или npm-пакетов я не нашел — пришлось писать свою.Читать дальше →

© Habrahabr.ru