Login
Newsletter
Werbung

Do, 20. Juli 2017, 15:00

Dokumente digitalisieren und zukunftssicher aufbewahren

Erste Schritte zum papierlosen Büro

Von Ralph

Struktur ins Chaos bringen

Nach viel viel Arbeit beim Scannen kommt nun noch die Arbeit beim Sortieren. Macht nicht wirklich viel mehr Spaß. Als erstes braucht man eine gute Ordnerstruktur in der die Dateien aufbewahrt werden können. Meine Struktur sieht in etwa so aus:

  • Dokumente
    • Wohnung
      • 2005
      • 2006
      • 2007
      • ...
    • Arbeit
      • 2005
      • 2006
      • 2007
      • ...
    • Universität
    • Bank & Rente
      • Hypovereinsbank
      • 2005
      • 2006
      • ...
      • Postbank
      • Betriebsrente

Auf erster Ebene eine Aufteilung nach Themen und anschließend nach Jahren.

Alle Dokumente werden entsprechend dem Format »JAHR-MONAT-TAG Betreff« benannt. Das Datum entspricht dabei dem Datum des Dokuments - nicht der Zeitpunkt, wann dieses digitalisiert wurde. Das bedeutet natürlich: jedes PDF öffnen, Datum und Betreff lesen und Datei umbenennen. Kommt man später mit der Volltextsuche zu keinem Ergebnis, kann man sich immer noch ganz klassisch an der Ordnerstruktur, dem Datum und dem Dateinamen entlanghangeln.

OCR starten

Nach der langwierigen Vorbereitung kommen wir nun zur Texterkennung. Sucht man nach einem bestimmten Dokument, ist es sehr mühsam, über die Verzeichnisstrukturen und Dateinamen zu suchen. Damit eine Suche auch über die Inhalte der Dokumente möglich wird, hilft OCR (optical character recognition). Es wird eine Texterkennung durchgeführt, als Textebene in das PDF eingefügt und zusätzlich auch noch das Dokument korrekt ausgerichtet/rotiert. Man muss also nicht manuell im PDF-Viewer die Seiten drehen, um den Inhalt lesen zu können.

Für OCR gibt es diverse Tools, mal mit besserer, mal mit schlechterer Erkennungsrate. Da sehr viele Dokumente automatisch verarbeitet werden sollen, bietet sich ein Kommandozeilenprogramm an. Ocrmypdf bringt alle diese Funktionen mit. Zudem gibt es neben der Möglichkeit, die Seiten automatisch korrekt zu rotieren, auch die Funktion, den Titel des Dokuments anzupassen. Als Ausgabeformat wird das gewünschte PDF/A verwendet.

Installiert werden kann es unter Ubuntu einfach über apt-get install ocrmypdf. Zusätzlich brauchen wir das Paket tesseract, welches die OCR-Engine mit dem deutschen Sprachpaket beinhaltet. Also: apt-get install tesseract-ocr-deu.

Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung