Dokumente digitalisieren und zukunftssicher aufbewahren

Erste Schritte zum papierlosen Büro

find -name "*.pdf" | xargs -i ocrmypdf {} {} -l deu --rotate-pages --title {} --clean --rotate-pages-threshold 5

Ralph

Ausgabe von OCRmyPDF

Mit find werden alle PDF-Dateien aus den Unterverzeichnissen an ocrmypdf übergeben.

-l deu: Hiermit wird die Sprache der Dokumente angegeben. Startet man die Erkennung ohne diesen Parameter, gibt es besonders bei Umlauten Schwierigkeiten.
--rotate-pages: Mit diesem Parameter rotiert ocrmypdf das Dokument in die korrekte Position.
--title "": Die Dokumente haben von der Scannersoftware einen Titel in den PDF Metadaten hinterlegt bekommen. Diesen manuell anzupassen, wäre sehr sehr aufwändig. Netterweise bietet ocrmypdf auch gleich diese Möglichkeit an. Auch weitere Metadaten, wie Autor etc. können angepasst werden. Dies ist jedoch erst mal nicht relevant.
--rotate-pages-threshold 5: Hier kann der Threshold für --rotate-pages angeben werden. Wird nur ein Teil der Seiten gedreht, dann können wir den Threshold manuell festlegen. Allerdings kann es dann natürlich auch sein, dass eine Rotation fälschlicherweise durchgeführt wird, obwohl das Dokument bereits korrekt ausgerichtet ist. Die Defaults sind hier für meine Dokumente etwas zu konservativ gewählt, deshalb der Threshold 5.
--clean: Eventuell werden die OCR-Ergebnisse hierdurch verbessert. Bevor die OCR ausgeführt wird, werden Artefakte durch das Scannen entfernt. Die eigentliche Bilddatei bleibt jedoch unverändert.
Alternative Option: --force-ocr: Führt die Texterkennung erneut aus, auch wenn bereits Text erkannt wurde. War zum Beispiel der Threshold für die Rotation zu hoch, kann das Dokument so erneut bearbeitet werden.

Wichtig zu wissen: Es wird hier das Originalfile mit dem neuen File überschrieben, da als Input- und Output-File der gleiche Name angeben wird. Dies kann natürlich individuell anders gemacht werden. Da jedoch nur die Dokumente mit Textebene benötigt werden, erfüllt dies genau den Zweck und erspart ein manuelles Entfernen der Quelldateien. Für erste Tests würde ich trotzdem empfehlen, zunächst das Originaldokument nicht zu überschreiben oder vorher ein komplettes Backup zu machen.

Hat das Dokument bereits eine Textebene, wird dieses ignoriert. Wir können also das Kommando auf komplette Verzeichnisse anwenden, ohne dass die Erkennung mehrfach läuft. Man sollte mit OCR keine Wunder erwarten. Die Texterkennung funktioniert nicht hundertprozentig und ist auch stark vom Aufbau des Dokuments, dem Hintergrund, den verwendeten Schriftarten und der Qualität des Scans abhängig. Die Textebene wird hauptsächlich benötigt, damit die Dokumente später indexiert und durchsucht werden können. Hierfür muss nicht jedes Wort korrekt erkannt sein. Wenn einzelne Schlagworte wie »Entgeltabrechnung« oder »Sozialversicherung« korrekt erkannt sind, reicht dies zur Suche aus.

Das Ergebnis kann man mit einem beliebigen PDF-Reader sehen. Entweder indem man im Dokument nach einem Text sucht oder indem man den Text mit der Maus markiert. Und schon ist das Ergebnis der Texterkennung zu sehen. In diesem Fall ein ganz passables Resultat.