Apache Tika 1.0 kennt über 1.200 Dateiformate

Funktion steht nur registrierten Nutzern zur Verfügung!

Newsletter

Funktion steht nur registrierten Nutzern zur Verfügung!

Lesezeichen hinzufügen

Do, 10. November 2011, 10:17

Software::Entwicklung

Apache Tika 1.0 kennt über 1.200 Dateiformate

Apaches Parser Tika, ein Werkzeug, um Metadaten und strukturierte Textfragmente aus verschiedenen Dokumenten zu extrahieren, ist in der Version 1.0 erschienen.

Von Falko Benthin

Apache Software Foundation

Apache Tika wurde im März 2007 gestartet und anderthalb Jahre später ein Unterprojekt der Suchmaschine Lucene. Im April 2010 wurde Tika ein eigenes Top-Level-Projekt. Die gerade veröffentlichte Version 1.0 kann deutlich mehr Dateitypen nach Textinhalten durchkämmen als ihre Vorgänger. Insgesamt kann der Parser nun über 1.200 Dateiformate durchsuchen, darunter HTML, XML, MS Office, OpenDocument, PDF, ePUB, RTF, komprimierte Archive, Mailboxen und Multimediadaformate.

Apache Tika lässt sich von der Kommandozeile aus nutzen und in viele Projekte integrieren, die z.B. in Java, Python, .NET and C++ implementiert wurden. Die API wurde von allen in Version 0.10 als veraltet markierten Klassen bereinigt. Der Tika-Kern nutzt in OSGi-Umgebungen automatisch alle verfügbaren Parser- und Detektor-Dienste. Die Entwickler verbesserten den Parser für viele Dateiformate und halfen Tika, verschiedene zusätzliche Sprachen zu erkennen, unter anderem Weißrussisch, Katalanisch, Esperanto, Galizisch, Litauisch, Rumänisch, Slowakisch, Slowenisch und Ukrainisch.

Apache Tika steht unter der Apache License. Der Parser wird auf der Projektseite zum Download angeboten.