Сайт дня: NewOCR - подрастающий убийца FineReader11.04.2012 12:19

Сегодня сайтом дня объявляется онлайновый сервис распознавания текста NewOCR.

Чуть меньше года назад я писал про замечательный сайт ABBYY FineReader Online, который для того времени казался безусловно лучшим решением. Да, он слегка платный. Зато отлично распознаёт и понимает разные языки. Хотя немного, совсем капельку неудобный. Но что тут говорить, все привыкли, что конкуренты заметно отстают, так что выбора-то и нет.

За этот почти год я убедился, что выбор есть. Все годы, пока развивалась индустрия программ OCR (оптического распознавания текста) конкуренты отставали от FineReader на несколько шагов. Когда FineReader ещё не было, OCR-программы напоминали детские демки, так что это не считается. Но шли годы, OCR-программы, такие как Tesseract и Cuneiform, гнались за FineReader, и постепенно добежали до такого уровня, когда ими стало можно пользоваться. Возможно, FineReader ещё лучше, но это уже тот уровень, когда начинает играть роль понятие "достаточно".

Потестировав недавно Tesseract и Cuneiform на смартфоновых снимках русскоязычного текста я убедился, что их наконец-то достаточно. Возможно, их ещё и год назад было бы достаточно, если бы я тогда взялся потестировать.

Естественно, я сразу же начал искать к ним хороший интерфейс (благо, это свободные программы и интерфейс можно выбирать). В конце концов мне понравился веб-интерфейс на сайте NewOCR. Он простой, понятный, быстрый, и поддерживает обе OCR-программы и оба нужных мне языка (среди прочих).

Выбор файла и метода на сайте NewOCR

Всё предельно понятно, выбираем файл из сети или с компьютера (поддерживаются форматы JPEG, PNG, GIF, BMP, TIFF, PDF и DjVu), выбираем язык и способ распознавания (в Cuneiform можно распознать смешанный, русско-английский текст; в Tesseract пока почему-то нельзя) и практически всё.

Для примера, распознаем скриншот их хелпов самого сайта NewOCR. Вот такой:

Тестовый скриншот

В предварительном просмотре нам предлагают выбрать область для распознавания. Конечно, у десктопного варианта FineReader возможностей больше, а с онлайновым - вполне сравнимо.

Предварительный просмотр и выбор области распознавания на сайте NewOCR

Далее текст распознаётся. Неожиданно быстро, хотя возможно NewOCR просто ещё недостаточно популярен, чтобы быть перегруженным. Хорошо распознаются не только качественные скриншоты, но и довольно шумные сканы и мутные снимки. Всего год назад эти же программы работали ощутимо хуже. Интересно, что Tesseract и Cuneiform ошибаются немного по-разному, так что особо сложный текст можно распознавать и тем и другим, а потом сливать результаты каким-нибудь онлайновым diff-ом (если интересно - скажите, я напишу про один из таких).

Распознанный текст на NewOCR вполне предсказуемо можно сохранить в разных форматах, перевести или редактировать (в Google).

Распознанный текст и варианты действий с ним на сайте NewOCR

Программы Tesseract и Cuneiform дорабатываются сообществом, но очень медленно. Видимо, разработчики уже поняли, что распознают они нормально, и больше проблем именно с интерфейсами. К счастью, сейчас эти программы стоят того, чтобы делать к ним хорошие интерфейсы, такие, например, как сайт NewOCR

Знаете ещё хорошие сайты? Пишите на sitesoftheday@ferra.ru.