Релиз системы распознавания текста Tesseract 3.0 с поддержкой русского языка04.10.2010 12:29

Вышел релиз системы оптического распознавания текста Tesseract 3.0. Одним из самых важных улучшений в новой версии стала поддержка распознавания документов на русском и украинском языках. Можно отметить ряд других улучшений: проведена подготовка кода к использованию в многопоточных программах, добавлен модуль анализа структуры документа, добавлена поддержка вывода результатов в формате HOCR, используется библиотека Leptonica для ввода/вывода, обработки и анализа изображений, переписаны таблицы сопоставления неоднозначно распознаваемых элементов, добавление TessdataManager для совмещения нескольких файлов с данными в один файл, проведена чистка неиспользуемого кода и прекращена поддержка сборки в VC++6, добавлены дополнительные языки в систему распознавания.