Login
Login-Name Passwort


 
Newsletter
Werbung

Do, 27. März 2014, 15:00

Volltextsuche mit Recoll

Dateien in Linux durchforsten

Suchen ist gut. Finden ist besser: Unter Linux hilft dabei das Programm Recoll, mit dem Sie schnell Inhalte in Office-Dokumenten, PDFs und anderen Dateien finden.

Auf den meisten PCs liegen zahlreiche Dokumente, MP3s, Bilder und andere Dateien. Im Laufe der Zeit wird die Sammlung immer unübersichtlicher: Selbst wer alles sorgfältig in Ordnern organisiert, muss oft nach dem Gewünschten suchen. Suchfunktionen stehen daher beim Design von Betriebssystem und Benutzeroberflächen hoch im Kurs. Statt mühsamer Navigation im Dateimanager hilft eine Suche beim Aufspüren von selbst erstellen Dateien oder installierten Programmen.

Dabei werden jedoch nur die Dateinamen berücksichtigt. Wer auch die Inhalte von Textdokumenten oder die Metadaten von Bild- und Audiodateien durchsuchen will, benötigt spezielle Programme. Eine schnelle und leicht bedienbare Suchmaschine für den Linux-Desktop ist Recoll. Das Programm bietet eine grafische Oberfläche für den Desktop, und es verarbeitet im Netzwerk auch Anfragen über den Webbrowser. Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz.

Direkte Suche versus Suchindex

Internet-Suchmaschinen suggerieren, dass sich jede Information in Sekundenbruchteilen auffinden lässt. Die dahinterliegende Technik ist aber alles andere als trivial. Die Datenmenge auf dem heimischen PC ist zwar nicht mit den Massen der Webseiten vergleichbar, die Google & Co. erfassen, dafür ist aber auch die Leistungsfähigkeit des Rechners deutlich geringer. Das Problem ist identisch: Unterschiedliche Dateitypen müssen schnell erfasst, katalogisiert, und die Inhalte müssen durchsuchbar werden.

Die direkte Suche in Dateien ist langsam und kommt nur in Frage, wenn die Dateianzahl sehr gering ist. Bei vielen Dateien ist ein Suchindex effektiver. Eine Indexer-Software erfasst dafür die Dateien, erstellt aus dem Inhalt Wortlisten und speichert die Beziehungen zwischen Dateien und Wörtern in einer Datenbank. Der resultierende Index ist im Vergleich zur durchsuchten Datenmenge relativ klein und lässt sich daher schnell durchsuchen. Allerdings hat auch diese Technik Nachteile: Der Suchindex muss jedes Mal aktualisiert werden, wenn neue Dateien aufgenommen werden sollen. Außerdem lassen sich nur Inhalte aus Dateien erfassen, deren Struktur die Indexer-Software kennt. Bei Text- oder HTML-Dateien ist das kein Problem. Anders sieht es mit PDFs, Office-Dokumenten oder Meta-Informationen in MP3s oder Bilddateien aus. Hier sind Filterprogramme nötig, die die Daten extrahieren und der Indexer-Software zur Verfügung stellen.

Kommentare (Insgesamt: 8 || Alle anzeigen || Kommentieren )
Re: searchmonkey (David Wolski, Mo, 31. März 2014)
Re: Tönt spannend! (geh mal schnell in Rente, Fr, 28. März 2014)
Re: searchmonkey (MGrabo, Fr, 28. März 2014)
searchmonkey (lorraine, Fr, 28. März 2014)
Guter Artikel... (openWeb, Fr, 28. März 2014)
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung