Login
Login-Name Passwort


 
Newsletter
Werbung

Di, 10. April 2007, 17:00

Unternehmen

Google entwickelt neues OCR-System

Die Forschungsgruppe Image Understanding and Pattern Recognition (IUPR) der Universität Kaiserslautern und des DKFI arbeitet im Auftrag von Google an einem neuen OCR-System mit.

Wie die Forscher nun mitteilen, steht eine erste Vorschau des freien Systems zum Download bereit. Der Einsatzzweck von »OCRopus« soll die Digitalisierung und Konvertierung von Büchern und Dokumenten im großen Stil sein. Speziell soll es wohl Googles Projekt zur Digitalisierung von Büchern unterstützen. Daneben glaubt Google auch, dass der Code künftig für andere Projekte nutzbar ist.

OCRopus besteht aus der Zeichenerkennung Tesseract, der Layout-Analyse RAST, einem einfachen auf aspell beruhenden Sprachmodell und anfänglichen Versionen von Test- und Evaluierungs-Tools. Die aktuelle Vorschauversion wurde unter Ubuntu 6.10 entwickelt und dürfte nur mit manuellen Anpassungen auf anderen Distributionen lauffähig sein. Eine Alpha-Version ist erst fürs dritte Quartal 2007 geplant.

Laut der Projektseite ist die Software überwiegend in C++ und zu einem kleineren Teil in Python geschrieben. Sie verfügt über Skriptfähigkeiten mittels der eingebetteten Skriptsprache Lua. Als Build-Tool kommt Jam zum Einsatz, die Versionen werden mit Subversion verwaltet.

Derzeit fehlen dem Programm noch viele geplante Funktionen und Tuning. Nach der Alpha-Version im dritte Quartal soll Anfang nächsten Jahres eine Betaversion erscheinen. Version 1.0 ist für das dritte Quartal 2008 geplant und soll mehrere Plattformen unterstützen und ein grafisches Frontend mitbringen.

Eine Komponente des Systems ist die OCR-Engine Tesseract. Diese wurde ursprünglich zwischen 1985 und 1995 von den Hewlett Packard Laboratories entwickelt und nach ihrer Freigabe von der Universität von Nevada in Las Vegas betreut. Trotz verschiedener weiterer Verbesserungen durch Google weist die Engine, die keine grafische Oberfläche besitzt, eine Reihe von Mängeln auf, die nun im Rahmen von OCRopus beseitigt werden sollen.

Werbung
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung