Выпуск системы распознавания текста GNU Ocrad 0.2324.03.2014 22:16

Представлен релиз системы распознавания текста Ocrad (Optical Character Recognition) 0.23, развиваемой под эгидой проекта GNU. Из изменений в новой версии отмечено улучшение распознавание символов (например, более корректное разделение схожих начертаний L и Z) и реализация удаления лидирующих пробелов в фильтрах «только буквы» и «только цифры». Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction). Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках. Распознавание поддерживается только для кодировок «ascii», «iso-8859–9» и «iso-8859–15». Поддержка кириллицы отсутствует. В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах.