ABBYY Recognition Server IFilter: поисковые системы Microsoft теперь могут искать тексты в картинках

Компания ABBYY представляет новую разработку - ABBYY Recognition Server IFilter. Решение позволяет поисковым системам Microsoft индексировать графические документы для последующего поиска по их содержимому. Теперь пользователи корпоративной сети смогут легко и быстро находить нужные для работы данные, даже если они хранятся в таких форматах, как TIFF, JPEG, PDF и DjVu.

ABBYY

Зачастую крупные организации сталкиваются с отсутствием оперативного доступа к корпоративной информации. Для того чтобы найти необходимые документы в электронных архивах компании, сотрудникам приходится прикладывать значительные усилия, что повышает временные издержки и, соответственно, снижает эффективность работы. Семейство продуктов Microsoft SharePoint в числе прочего предлагает мощный сервис корпоративного поиска, позволяющий быстро и гарантированно находить нужную информацию как в структурированных, так и в неструктурированных источниках данных. Схема работы сервиса такова: поисковый агент SharePoint периодически обходит корпоративные библиотеки и автоматически индексирует новые или недавно изменённые документы, после чего они становятся доступными для поиска.

Однако не все документы хранятся в форматах, пригодных для полнотекстового индексирования. Так, важные для организации документы (копии отсканированных договоров, факсы, входящая корреспонденция, а также архивы газет, журналов и книг) нередко сохраняются в графическом виде, что делает поиск по их содержимому невозможным. Интегрируясь в поисковый модуль SharePoint, решение ABBYY успешно решает эту проблему: в его состав входит специальный плагин IFilter, благодаря которому поисковый сервис Microsoft может задействовать программный продукт ABBYY Recognition Server для непосредственного извлечения содержимого из файлов графических форматов.

ABBYY

Текстовые файлы поисковый агент SharePoint индексирует самостоятельно, а для извлечения данных из изображений привлекает решение ABBYY: IFilter передает изображения в ABBYY Recognition Server, система распознаёт документы и затем возвращает распознанный текст в Microsoft SharePoint Server для индексирования. Важно, что обработка изображений не приводит к дополнительной загрузке ресурсов SharePoint: ABBYY Recognition Server устанавливается на отдельный сервер, причём производительность решения может быть в любой момент повышена путём подключения к нему дополнительных мощностей.

Помимо интеграции с Microsoft SharePoint, ABBYY Recognition Server IFilter может работать и с Microsoft Windows Search, системой локального поиска на компьютере пользователя. Один установленный в корпоративной сети ABBYY Recognition Server даёт возможность всем сотрудникам организации осуществлять полнотекстовый поиск документов, хранящихся на их персональных компьютерах в виде изображений. При этом все ресурсоёмкие процессы происходят незаметно для пользователей - им становится доступен окончательный результат поиска. На компьютеры сотрудников требуется установить всего лишь лёгкий плагин к Microsoft Windows Search, непосредственная обработка документов будет осуществляться на сервере.

ABBYY Recognition Server создан на базе всемирно известных технологий распознавания ABBYY и способен обрабатывать документы на более чем 190 языках. Также система успешно «читает» многоязычные документы, при этом в одном и том же документе могут быть использованы языки различных видов письменности (например, китайский и немецкий, иврит и французский). Решение поддерживает самые популярные графические форматы: TIFF, JPEG, PDF, DjVu, BMP, PCX, DCX и PNG. Таким образом, ABBYY Recognition Server применим не только в процессе индексации документов: он может служить и в качестве удобного инструмента для обработки бумажных и конвертации электронных документов.

Компания ABBYY продолжает расширять линейку решений для корпоративных поисковых систем (Enterprise Search Systems, ESS) на основе ABBYY Recognition Server: ранее было выпущено аналогичное дополнение для поискового сервера Google Search Appliance (GSA).

Получить подробную информацию о продукте ABBYY Recognition Server IFilter можно на сайте ABBYY.

Ранее редакция THG сообщала, что компания ABBYY объявляет о выходе ABBYY FineReader Engine 9.0 for Linux, новой версии всемирно известного инструментария разработчика (SDK), предназначенного для встраивания функций оптического распознавания в приложения независимых производителей.

©  Tom's Hardware