Login
Newsletter
Werbung

Do, 20. Juli 2017, 15:00

Dokumente digitalisieren und zukunftssicher aufbewahren

Erste Schritte zum papierlosen Büro

Von Ralph

Suche in Dokumenten

Nun kommt der Punkt: Wie finden wir eigentlich unsere Dokumente wieder?

Variante 1: Manuell - Anhand der angelegten Verzeichnis- und Dateistruktur. Wie bereits angesprochen, kann dies sehr mühsam sein. Deswegen gleich zu Variante 2.

Dokumentensuche in Recoll

Ralph

Dokumentensuche in Recoll

Variante 2: Suchmaschine - Durch das OCR und den dadurch entstandenen Text-Layer sind die Dokumente durchsuchbar. Hierfür gibt es natürlich wieder viele Varianten. Auf die Konsole soll hier nicht zurückgegriffen werden, sondern es soll das komfortablere Recoll zum Einsatz kommen. Recoll bringt eine nette GUI mit und läuft stabil. Es lässt sich zudem sehr intuitiv bedienen. Die Installation ist wie immer einfach per apt-get install recoll. Nach dem Start muss angegeben werden, über welche Verzeichnisse der Index erstellt werden soll - also wo später gesucht werden kann. Hier wird das Dokumentenverzeichnis gewählt. Natürlich kann man auch sein komplettes Home-Verzeichnis angeben, allerdings hat man dann eventuell zu viele Suchergebnisse und das Ganze wird unübersichtlich - zudem wächst der Suchindex unnötig.

Nun nur noch den jeweiligen Suchbegriff eingeben und ggf. pdf anhängen und schon sind die passenden Dokumente zu sehen (Bild rechts).

So sollte man gut die Übersicht über seine Dokumente behalten können bzw. nach Stichworten gut suchen können. Nicht erspart bleibt einem allerdings die Arbeit. Etwas aufwändiger als nur sortieren und in Ordnern abheften, dafür wird keine Stunden mehr nach einer Abrechnung gesucht und etwas Platz im Schrank wird auch frei. Alle nicht mehr benötigten Originale kommen in den Aktenvernichter - alles, bei dem das Original noch gebraucht wird, wie bisher in den Schrank. In meinem Fall konnte ich allerdings circa drei viertel meiner Ordner entsorgen.

Zählen der PDF-Seiten

Nach der ganzen Arbeit ist es nun noch ganz interessant zu wissen, wie viele PDF-Seiten denn eigentlich gescannt und erfasst wurden. Hier hilft uns pdftk, welches über apt-get install pdftk installiert werden kann. Pdftk kann diverse Meta-Daten der PDF-Dateien anzeigen; unter anderem auch die Seitenanzahl. Das folgende kleine Shell-Skript geht wieder durch den kompletten Dokumentenordner, sucht alle PDFs und zählt die Seiten zusammen:

find . -type f -name '*.pdf' -print0 | while IFS= read -r -d '' file; 
do
    echo "$file"
    pagecount=$(pdftk "$file" dump_data|grep NumberOfPages| cut -d ' ' -f 2) 
    echo Seiten: $pagecount 
    allpages=$(($allpages + $pagecount)) 
    echo SUMME: $allpages 
done

Ausgaben von count.sh

Ralph

Ausgaben von count.sh

Zur Info: Das Skript mit einem beliebigen Text-Editor speichern, z.B. als count.sh, und mit chmod a+x count.sh ausführbar machen. Das Skript arbeitet vom aktuellen Speicherort aus, sollte also in das Hauptverzeichnis kopiert werden. Mit ./count.sh kann es nun gestartet werden.

Möchte man einzelne Verzeichnisse von der Zählung ausschließen, kann man bei find folgenden Parameter angeben:

-not -path "*Alt*"

So werden alle Verzeichnisse, die »Alt« enthalten, nicht durchsucht.

Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung