Login
Newsletter
Werbung

Fr, 20. November 2015, 15:25

Software::Büro

ArchivistaBox OCR-Cluster mit gesteigerter Leistung

Mit einer Armada von ARM-Prozessoren können Großanwender große Mengen von Bilddaten in Textdokumente konvertieren. Entsprechende Konfigurationen bietet Archivista jetzt an.

ArchivistaBox-Cluster mit sechs Odroid-Boards

Urs Pfister

ArchivistaBox-Cluster mit sechs Odroid-Boards

Mit dem ArchivistaBox OCR-Cluster können Bilddaten vollautomatisiert mit Texterkennung (OCR) in durchsuchbare PDF- bzw. Text-Dateien umgewandelt werden. Dank skalierbarer Cluster-Technologie von 24 bis 1920 CPU-Kernen ist der ArchivistaBox OCR-Cluster nach Angaben des Herstellers in der Lage, zwischen 120.000 und 10 Millionen Bilddateien pro Tag umzuwandeln.

Der OCR-Cluster wird durch stromsparende ARM-Prozessoren angetrieben. So findet ein 48-CPU-Cluster Platz in einem 3-Liter mITX-Gehäuse und benötigt unter Last etwa 75 Watt an Energie. Dabei werden pro Minute 180 Seiten verarbeitet. Dies ergibt eine Tagesleistung von 250.000 Seiten (alle Zahlen laut Angaben des Herstellers). Die Verwaltung des OCR-Clusters erfolgt webbasiert. Bei der Auslieferung sind die notwendigen IP-Adressen der Knoten bereits eingetragen, die weitere Konfiguration wie gewünschte Sprachen, Textlayout, Scan-Profile und Netzlaufwerke werden ebenfalls in der Web-Oberfläche vorgenommen.

Um die Erkennung zu steuern, steht optional eine Programmierschnittstelle mit HTTP-Aufrufen zur Verfügung. Ferner kann die Texterkennung direkt auf der Konsole gestartet und überwacht werden. Die zu verarbeitenden Dokumente können per FTP (Datei-Upload), SMB (Netzlaufwerk), HTTP bzw. HTTPS (Web) oder mittels angeschlossener Dokumenten-Scanner zur Verarbeitung herangezogen werden.

Bei der Texterkennung, die auf Tesseract 3.0x basiert, stehen mehr als 50 Sprachen zur Verfügung, darunter alte Zeichensätze wie Fraktur und/oder Gothic. Zusätzliche Sprachen und/oder spezielle Zeichensätze lassen sich jederzeit integrieren. Die Auslieferung der erkannten Texte erfolgt über das integrierte Dokumenten-Management-System ArchivistaDMS. Optional können durchsuchbare PDF-Dateien direkt auf externe Laufwerke exportiert werden.

Ausgeliefert werden die OCR-Cluster in Form von Mini-Rechnern oder optional montiert in klassischen Gehäusen bis hin zur Rack-Bauweise. Die Preisstruktur des OCR-Clusters richtet sich nach der Anzahl der CPU-Kerne. Die für den OCR-Cluster notwendigen Archivista-Boxen können unter shop.archivista.ch bestellt werden.

Der ArchivistaBox OCR-Cluster wird anlässlich des linuxday.at am Samstag, den 21.11. der Öffentlichkeit vorgestellt. Das Skript dazu findet sich ab diesem Datum auf der Homepage von linuxday.at und archivista.ch (unter Support und Downloads).

Werbung
Kommentare (Insgesamt: 5 || Alle anzeigen )
Re: Tesseract (blablabla233, Fr, 20. November 2015)
Re: Was'n das für'n Foto? (Pfister, Fr, 20. November 2015)
Was'n das für'n Foto? (Anonymous, Fr, 20. November 2015)
Re: Tesseract (Pfister, Fr, 20. November 2015)
Tesseract (OCRopus, Fr, 20. November 2015)
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung