Login
Newsletter
Werbung

Mi, 18. Juli 2012, 10:00

Software::Entwicklung

Parsersammlung Apache Tika 1.2 veröffentlicht

Das Apache-Tika-Projekt hat seine Parser-Werkzeugsammlung zum Extrahieren von Metadaten und strukturierten Textfragmenten aus verschiedenen Dokumenttypen in der Version 1.2 vorgestellt.

Apache Software Foundation

In Apache Tika 1.2 zog ein neuer Netzwerkserver ein, der auf Apache CXF basiert. Das Werkzeug kann mehr Dateiformate verarbeiten (Flexible Image Transport System, iWork, KML und KMZ). Die Kompressionsbibliothek wurde auf Version 1.4.1 aktualisiert, so dass sich jetzt auch Unix-Dump-Archive und Dokumente durchsuchen lassen, die mit XZ und Pack200 komprimiert wurden.

Auf der Kommandozeile kann Tika 1.2 ein Passwort übergeben werden, um verschlüsselte Dokumente zu öffnen. Der Parser kann den verwendeten Zeichensatz zuverlässiger automatisch bestimmen und als »Charset«-Parameter zurückgeben.

Tika gehörte ursprünglich zum Lucene-Projekt, bevor es 2010 ein eigenes Top-Level-Projekt wurde. Der Parser wurde in Java implementiert und unterstützt über 1.200 Dateiformate. Die Werkzeugsammlung steht unter der Apache License 2.0 und ist auf der Downloadseite oder in Maven-Repositorien erhältlich.

Werbung
Kommentare (Insgesamt: 0 )
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung