Свободная OCR-система от Google поддерживает русский язык05.10.2010 11:55

Исходные тексты OCR-движка Tessaract был опубликован компанией HP в 2005 году. К тому времени проект уже 10 лет не развивался и сильно уступал своим конкурентам. Однако проект был “подхвачен” компанией Google, которая на днях объявила о выпуске третьей версии Tessaract.

Среди усовершенствований новой версии – новый модуль анализа оформления страниц, поддержка открытого стандарта представления OCR-информации hOCR, поддержка библиотеки leptonica для выполнения операций, связанных с обработкой изображений.

Однако главная новость для российских пользователей заключается в том, что Tessaract теперь поддерживает русский язык. До недавнего времени единственной свободной OCR-системой с поддержкой русского языка было ПО CuneiForm, открытое российским разработчиком Cognitive Technologies в 2008 году. Изначально CuneiForm был доступен только в версии для MS Windows, но сегодня уже существуют графические оболочки для использования CuneiForm из среды Linux (существуют графические оболочки Cuneiform-Qt и YAGF).

Инструкция по установке Tessaract в средах Windows и UNIX доступна на сайте проекта.