Software::Entwicklung
Apache Tika 1.0 kennt über 1.200 Dateiformate
Apaches Parser Tika, ein Werkzeug, um Metadaten und strukturierte Textfragmente aus verschiedenen Dokumenten zu extrahieren, ist in der Version 1.0 erschienen.
Apache Software Foundation
Apache Tika wurde im März 2007 gestartet und anderthalb Jahre später ein Unterprojekt der Suchmaschine
Lucene. Im April 2010 wurde Tika ein eigenes Top-Level-Projekt. Die gerade veröffentlichte
Version 1.0 kann deutlich mehr Dateitypen nach Textinhalten durchkämmen als ihre Vorgänger. Insgesamt kann der Parser nun über 1.200 Dateiformate durchsuchen, darunter HTML, XML, MS Office, OpenDocument, PDF, ePUB, RTF, komprimierte Archive, Mailboxen und Multimediadaformate.
Apache Tika lässt sich von der Kommandozeile aus nutzen und in viele Projekte integrieren, die z.B. in Java, Python, .NET and C++ implementiert wurden. Die API wurde von allen in Version 0.10 als veraltet markierten Klassen bereinigt. Der Tika-Kern nutzt in OSGi-Umgebungen automatisch alle verfügbaren Parser- und Detektor-Dienste. Die Entwickler verbesserten den Parser für viele Dateiformate und halfen Tika, verschiedene zusätzliche Sprachen zu erkennen, unter anderem Weißrussisch, Katalanisch, Esperanto, Galizisch, Litauisch, Rumänisch, Slowakisch, Slowenisch und Ukrainisch.
Apache Tika steht unter der Apache License. Der Parser wird auf der Projektseite zum Download angeboten.