Apache Tika ist ein Toolkit, das Metadaten und Text von über tausend verschiedenen Dateitypen erkennt und extrahiert. Alle Dateitypen können über eine einheitliche Schnittstelle geparst werden. (non)