Релиз системы извлечения контента Apache Tika 1.2

17 июля 2012 года

Доступен релиз Apache Tika 1.2, набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ. Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

Среди новшеств, добавленных в Apache Tika 1.2:

  • Поддержка JAX-RS (Java API для RESTful web-сервисов)
  • Средства для обработки метаданных XMP
  • Интеграция библиотеки с поддержкой используемого в продуктах Mozilla алгоритма автоматического определения кодировок текста
  • Поддержка форматов файлов KML (Keyhole Markup Language), XZ и Pack200
  • Улучшение извлечения контента из файлов iWork
  • Поддержка определения файлов FITS (Flexible Image Transport System)
  • Улучшение извлечения ресурсов из OLE2-документов.

Источники

править


 
 
Creative Commons
Эта статья содержит материалы из статьи «Релиз системы извлечения контента Apache Tika 1.2», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
 
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.