Login
Newsletter
Werbung

Fr, 19. September 2008, 18:36

ArchivistaBox erstellt durchsuchbare PDF-Dateien

Die Schweizer Firma Archivista veröffentlichte eine neue Version des quelloffenen DMS-Systems ArchivistaBox und bietet nun erstmals auch die Erstellung von durchsuchbaren PDF-Dateien an.

Die ArchivistaBox ist ein webbasiertes Dokumenten-Management-System (DMS), das auf jedem handelsüblichen Rechner installiert werden kann. Je nach Hardware können dabei laut Aussagen des Herstellers Seitenvolumen von einigen tausend Seiten bis in den Millionenbereich pro Tag verarbeitet werden. Die neue Version 2008/IX des Systems enthält erstmals die Möglichkeit, aus eingelesenen Seiten durchsuchbare PDF-Dateien zu erstellen. Dabei stehen mehr als 20 Sprachen zur Verfügung. Die Erkennungsqualität soll bei über 99 Prozent liegen.

Mit der ArchivistaBox erstellte PDF-Dateien werden direkt in einer Archivista-Datenbank abgelegt und automatisch verschlagwortet. Damit ist es möglich, den gesamten Dokumentenbestand nach bereits eingelesenen Dateien zu durchsuchen. Einmal erfasste Dokumente sind jederzeit mit einem Webbrowser abrufbar. Sensitive Daten können verschlüsselt zur Verfügung gestellt werden. Bei Bedarf erstellt die ArchivistaBox auch fertige DVD-Publikationen.

Die Quellen der ArchivistaBox stehen unter der GPLv2-Lizenz zum Download bereit. Für die Texterkennung nutzt das System die freie Texterkennungs-Engine Tesseract und eine Linux-Portierung des OCR-Tools CuneiForm. Die durchsuchbaren PDF-Dateien werden mit dem Hilfsprogramm hocr2pdf erstellt.

Werbung
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung