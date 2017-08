Do, 10. August 2017, 15:00

Papierloses Büro: Dokumente über mehrere Standorte synchronisieren

Hat man seine Dokumente digitalisiert, will man sich auch sicher sein, dass es ein Backup-System gibt und beispielsweise nach einem Wohnungsbrand, Hochwasser oder Einbruch keine Daten verloren sind. In diesem Teil wird gezeigt, wie alle Daten über zwei Standorte synchronisiert werden können.

Im ersten Teil der Artikels wurde beschrieben, wie alle Papier-Dokumente digitalisiert, indiziert und sauber als PDF/A aufgehoben werden können. Nun wird gezeigt, wie alle Daten über zwei Standorte synchronisiert werden können. Der Fokus ist dabei weniger, dass wir an mehreren Standorten oder mit mehreren Geräten arbeiten können, sondern dass es ein Backup-System gibt und beispielsweise nach einem Wohnungsbrand, Hochwasser oder Einbruch nicht alle Daten verloren sind. Denn das beste Backup hilft nichts, wenn es mit den Originalen vernichtet wurde oder am geschützten Ort nur veraltete Daten liegen.

Hinweis: Alle Teile dieser Artikelserie können Sie über das Inhaltsverzeichnis erreichen.

Als kleinen Nachtrag zum ersten Artikel: Nach dem Scannen aller Dokumente mit dem Büroscanner habe ich dann beim späteren Durchsehen festgestellt, dass doch relativ viele leere Rückseiten mitgescannt wurden. Ich habe bei Github ein paar Skripte abgelegt, die das erledigen und den gesamten Workflow vereinfachen:

Ein Python-Skript, das alle Dokumente im Verzeichnis nach leeren Seiten durchsucht und diese entfernt.

Das Shell-Skript zum durchführen der OCR

Ein Python-Skript, das veraPDF für alle Dokumente ausführt und die Ausgabe etwas aufbereitet darstellt.

Und ein Shell Script (run.sh), das alle anderen nacheinander aufruft.

Ich habe in meinem Home-Verzeichnis nun ein Verzeichnis OCR, in dem diese Skripte liegen. Alle neu gescannten Dokumente werden dort zwischengespeichert und anschließend wird das Skript ./run.sh aufgerufen. Sind alle Skripte abgeschlossen, müssen die Dokumente nur noch in der Verzeichnisstruktur abgelegt werden. Dies erleichtert den Workflow nochmal ein wenig.

Genereller Aufbau

Ralph

Aber nun zum eigentlichen Thema. Aktuell sind alle erfassten Dokumente noch ungesichert auf nur einem Notebook vorhanden. (Ganz ehrlich: Wenn ihr wirklich alle Dokumente digitalisiert, dann haltet euch nicht an die Reihenfolge des Artikels, sondern macht unbedingt immer wieder Backups! - »Spielt« nie mit Produktivdaten). Der Plan ist folgender:

Alle Daten sollen vom Notebook auf einen kleinen Server (in diesem Fall auf Intel NUC-Basis) gespiegelt werden. Damit kann dann das Notebook schon mal ausfallen und alle Daten werden noch auf dem NUC-Server vorgehalten. Es wird ein VPN zwischen beiden Standorten aufgebaut: Hört sich erst mal dramatischer an, als es ist. Der zweite Standort ist die Wohnung der Schwiegereltern und benötigt wird nur ein mittelmäßiger DSL-Anschluss. In diesem Fall an beiden Orten 16.000er DSL - vermutlich ist auch deutlich weniger ausreichend. Am zweiten Standort steht ein Raspberry Pi der dritten Generation mit Raspbian. Dorthin werden die Daten gespiegelt. Gespeichert werden die Daten auf einer externen HDD, welche über USB am Raspi angeschlossen ist.

Sieht etwas zusammengewürfelt aus? Sicher. Es wurde hier keine extra Hardware angeschafft, sondern das verwendet, was noch zu Hause herumlag. Da über mehrere Rechner gespiegelt wird und keiner der Rechner eine zentrale Rolle hat, ist es vertretbar, dass hier auf etwas angestaubte Hardware ohne RAID oder sonstige Redundanz gesetzt wird. Fällt einer der Server aus, wird er einfach erneut aufgesetzt und die Daten werden zurück gespiegelt. Echte Server-Hardware oder ein NAS mit einem RAID wären natürlich besser - aber auch entsprechend kostspielig.

Auf die Details, wie Debian auf dem Servern installiert wird, die Festplatten zu mounten sind oder wie ein SSH-Zugang aktiviert wird, wird in diesem Artikel nicht eingegangen.