Das Apache-Tika-Projekt hat seine Parser-Werkzeugsammlung zum Extrahieren von Metadaten und strukturierten Textfragmenten aus verschiedenen Dokumenttypen in der Version 1.2 vorgestellt.
zog ein neuer Netzwerkserver ein, der auf Apache CXF basiert. Das Werkzeug kann mehr Dateiformate verarbeiten (Flexible Image Transport System, iWork, KML und KMZ). Die Kompressionsbibliothek wurde auf Version 1.4.1 aktualisiert, so dass sich jetzt auch Unix-Dump-Archive und Dokumente durchsuchen lassen, die mit XZ und Pack200 komprimiert wurden.
Auf der Kommandozeile kann Tika 1.2 ein Passwort übergeben werden, um verschlüsselte Dokumente zu öffnen. Der Parser kann den verwendeten Zeichensatz zuverlässiger automatisch bestimmen und als »Charset«-Parameter zurückgeben.
Tika gehörte ursprünglich zum Lucene-Projekt, bevor es 2010 ein eigenes Top-Level-Projekt wurde. Der Parser wurde in Java implementiert und unterstützt über 1.200 Dateiformate. Die Werkzeugsammlung steht unter der Apache License 2.0 und ist auf der Downloadseite oder in Maven-Repositorien erhältlich.