Apache Tika 1.0

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов. Tika создавалась как подпроект библиотеки полнотекстового поиска Apache Lucene.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Основные изменения по сравнению с 0.10:

  • RTF: поддержка гиперссылок
  • MS Word: поддержка Unicode дефисов
  • Outlook: извлечение вложенных файлов
  • MS Office: увеличение скорости
  • OpenOffice: извлечение верхних и нижних колонтитулов
  • PDF: корректное извлечение параграфов и опциональная поддержка аннотаций
  • Определение языка/кодировки текстов: поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков
  • Работа и конфигурация в OSGi окружении
  • Удалены API, объявленные устаревшими в предыдущих версиях

©  Linux.org.ru