В OCR-системе Tesseract 3.00 появилась поддержка русского языка

1 октября была анонсирована новая стабильная версия Open Source-системы распознавания текста (OCR) — Tesseract 3.00. В ней появилась поддержка множества языков, среди которых и русский.Начало разработки OCR-системы Tesseract было положено еще в 1985—1994 годах в лабораториях HP. Сейчас приложение работает в Linux, Mac OS X и Windows, распространяется под свободной лицензией Apache License 2.0.Среди изменений в релизе Tesseract 3.00 отмечаются: проведена подготовка для обеспечения безопасности работы потоков; новый модуль анализа разметки страницы; новый вывод HOCR; использование Leptonica в качестве основного средства ввода/вывода изображений и работы с ними; отказ от поддержки VC++ 6; появление поддержки множества новых языков, таких как русский и украинский. Файлы с релизом Tesseract 3.0 доступны на code.google.com.

©  nixp