Блог компании Evernote Corporation / Система поисковой индексации в Evernote

Система индексации в Evernote разработана для расширения поисковых возможностей Evernote и обеспечения поиска по медиафайлам. Ее задача — исследовать содержимое этих файлов и сделать любую обнаруженную в них текстовую информацию доступной для поиска. В настоящее время она обрабатывает изображения и файлы PDF, а также «цифровые чернила» (digital ink), но в планах у нас есть поддержка индексирования и других типов медиафайлов. Полученный индекс выводится в виде документа XML или PDF и содержит распознанные слова, альтернативные варианты распознавания, а также координаты найденных слов в документе (для последующей подсветки).

Полный текст статьи читайте на Habrahabr.ru