WatchOCR — LiveCD Linux для распознавания текста в PDF

Неизвестный читатель Slashdot представил общественности обнаруженный им проект LiveCD Linux-дистрибутива WatchOCR, предназначенного для быстрого и простого распознавания текста в PDF-файлах.WatchOCR позиционируется как «свободный OCR-сервер для PDF». Он основан на LiveCD-дистрибутиве Knoppix и использует Open Source-средства CuneiForm и ExactImage для выполнения работы по распознаванию текста. В WatchOCR доступен простой веб-интерфейс, позволяющий удаленно настроить слежение за каталогом на факт поступления новых отсканированных PDF-файлов. При появлении таких файлов (PDF с изображениями) WatchOCR преобразует их в PDF с распознанным текстом.Подробности о WatchOCR, статьи по его установке и настройке, а также форум доступны на сайте проекта.

©  nixp