Dokumente digitalisieren und zukunftssicher aufbewahren

Erste Schritte zum papierlosen Büro

PDF-Validierung

Wir haben nun ggf. PDF-Dateien aus unterschiedlichsten Quellen. Alleine in diesem Artikel sind drei unterschiedliche Methoden zum Scannen beschrieben. In der Praxis werden noch weitere Quellen, wie heruntergeladene PDFs, hinzukommen. Das Ziel des Artikels ist es, dass die PDFs auch in vielen vielen Jahren noch lesbar sind. Der hierfür geschaffene Standard heißt, wie bereits erwähnt PDF/A. Aber wie kann man sich nun sicher sein, dass sich unsere Applikationen wirklich an den Standard halten?

Das Projekt veraPDF hat sich genau das Ziel gesetzt, ein Tool zum Validieren von PDF-Files zu entwickeln. Das Projekt wird von der EU gefördert und vor kurzem ist Version 1.0 erschienen. Die Java-Applikation kann unter verapdf.org heruntergeladen werden.

Ralph

veraPDF-Installer

Nach dem Entpacken des Linux-Installers muss dieser nur ausgeführt werden und ein passendes Installationsverzeichnis gewählt werden, in welchem veraPDF nun installiert wird.

VeraPDF besitzt prinzipiell eine GUI, welche für unsere Zwecke jedoch nicht hilfreich ist, da eine große Anzahl an PDFs geprüft werden soll. Die GUI unterstützt nur das Prüfen einer einzelnen PDF-Datei. Hierfür gibt aber ein passendes CLI. Eine detaillierte Beschreibung ist hier zu finden: http://docs.verapdf.org/cli/.

Es sollen nun alle PDFs in allen Unterverzeichnissen validiert werden. Die Version des PDF/A Standards soll veraPDF selbst ermitteln:

verapdf -f 0 --recurse corpus/veraPDF-corpus-staging/PDF_A-1b/6.6\ Actions/6.6.1\ General/veraPDF\ test\ suite\ 6-6-1-t0 veraPDF test .

Setzen wir diese Kommando ab, dauert es eine Zeit lang und wir können das Gesamtergebnis am Ende des XMLs lesen:

<validationreports compliant="0" noncompliant="23" failedjobs="0">23</validationreports>

In diesem Fall würden die PDFs validiert, die direkt vom Büro-Scanner erstellt wurden. Wie wir sehen: Keines der PDFs ist korrekt nach den gültigen PDF/A Standards erstellt, obwohl es sich angeblich um ein PDF-A handelt. Die Details zu jedem File werden innerhalb des XML-Files dargestellt.

Nach dem Ausführen von ocrmypdf haben wir jedoch zum Glück valide Dokumente, welche sich an alle Standards halten:

<validationreports compliant="1" noncompliant="0" failedjobs="0">1</validationreports>

Als negatives Beispiel kann man Onlinebanking-Kontoauszüge sehen (die betroffene Bank ist hier absichtlich nicht angegeben), welche absolut nicht PDF/A-konform sind. Der Versuch, die Dateien mit ocrmypdf erneut zu konvertieren, führte dazu, dass die Logos fehlten. unoconv und gs steigen mit Exceptions aus. Da könnte man von offiziellen Dokumenten einer Bank mehr erwarten. Diese Dokumente zu reparieren, wird ein größeres Projekt.

Ausblick

Der nächste Artikel wird zeigen, wie sich zwei oder mehr Standorte sicher und einfach mit Hilfe von Zerotier verbinden lassen und die Daten mittels Syncthing synchronisiert werden können.