tesseract

Message

bürohengst · #1 Post by **bürohengst** » 22. Feb 2009 12:06

Hallo Leute,

Frage zu Tesseract in Abhängigkeit der Distributionen:

Ich habe auf Mandriva Tesseract installiert und kann damit mit zufriedenstellender Erkenneung OCR ausführen.

Das gleiche wollte ich auf OpneSuse 11 machen. ;(
Unter http://rpm.pbone.net konnte ich mir viele "Versionen" von Tessseract OpenSuse 11 hreunterladen. Die vielen Versionen unterschieden sich in der Dateigröße! Ein und die selber Version hatte mal 3MB, mal 10 MB.
Keine aber brachte eine eine vernünftige Erkennung zu stande.

Weiß jemand, welche Tesseract-SuSE-Quelle funktioniert?

Viele Grüße
bürohengst

Janka · #2 Post by **Janka** » 22. Feb 2009 22:50

Software für openSUSE holt man am besten von openSUSE.
http://software.opensuse.org/search

Oder gleich den Build-Service als Quelle in YaST eintragen (Community-Repositories) und dann über YaST installieren.

Janka

bürohengst · #3 Post by **bürohengst** » 23. Feb 2009 19:18

"U'\fel:•lI)4¤n.\/ allgerneiri
Eirwe l:•eq¤_,¤er*r1e IN./lögIic:l·1l<eit, lI)ateie¤
cufferwer Etarwclarcl, der ir: vielerw E6
xzervv erwclet, vv odtgrcfw sic:l·1 apnf eir
— l·<eir1e r1eL,¤e Eerxrersoftvv ars
Eiczlwerlweit}
— Izirevv all—freL4r1clIict1
— icllä. l<eir1e I<or1fig¤_,¤ratior1 atm
— ,¤«.l:•rL,¤f der E)ateier1 r*r1it lcueliel
— cIL,|r(:I'*n I—I"I—I’I:* 4¤«L,|tI'1er1tifizierL,|
— EE!./71.5 err*r1öglic:l·1t atgctw v
— vilierwts fullnr alle Eetrielcnssys
("\/xfelcuordrwer"}
Ziel
Ziel ist jetzt die lEir1ric:l·1t¤_,¤r1g eines
epnf die E)ateier1 zpngreiferw körwrwerw
,¤«.¤_,¤I’3ercler*r1 soll r1¤_,¤r eirw Eerwpntzer E
r*u_,¤r Zpngriff apnf il·1rer1 jevv eiligerw E

Viele grüße von der suse

Janka · #4 Post by **Janka** » 23. Feb 2009 19:46

Hast du das deutsche Sprachpaket installiert? Für openSuSE11.1 gibt es eins (neben Spanisch, Niederländisch, Französisch und Italienisch), das sollte auch für ältere SuSE-Versionen passen. Ohne passendes Sprachpaket kann Tesseract nur englische Texte erfassen.

Nimmst du immer die gleiche Scandatei als Grundlage oder scannst du jedes mal neu? Sonst könnten andere Scannereinstellungen auch der Grund für deine Probleme sein.

Ansonsten würde ich mal gucken, ob man an den Einstellungen für Tesseract noch drehen kann.

Janka

bürohengst · #5 Post by **bürohengst** » 23. Feb 2009 20:00

Moin,

danke für Deine Mühe, aber

für SuSE 11. gibt es unter dieser Quelle keine Sprachpaket für deutsch.

Aber wie englisch sieht der Scan-OCR aber auch nicht gerade aus.....

Noch schlimmer ist die Qualität des von dieser Quelle installierten OCRopus. Das startet erst gar nicht. weil Pfadangaben falsch sind und Dateien fehlen.

Bei Bei OpenSuSE werden scheinbar nur irgendwie der Vollständigkeit Pakete hinterlegt, ohne das diese anhaltsweise mal probiert wurden, von qualifizierten Tests ganz zu schweigen.

Meine nächste Distribution wird bestimmt eine andere sein.

Gruß

Janka · #6 Post by **Janka** » 23. Feb 2009 22:33

bürohengst wrote: für SuSE 11. gibt es unter dieser Quelle keine Sprachpaket für deutsch.

Das ist falsch. Es gibt ein Sprachpaket für openSuSE11.1. Wähle das im Selektor aus. Die Sprachpakete sollten auch mit openSuSE11.0 funktionieren.

Aber wie englisch sieht der Scan-OCR aber auch nicht gerade aus.....

Wenn er keine englischen Worte finden kann, hält er alles für Satz- und Sonderzeichen. Eigentlich logisch, oder?

Noch schlimmer ist die Qualität des von dieser Quelle installierten OCRopus. Das startet erst gar nicht. weil Pfadangaben falsch sind und Dateien fehlen.

Jetzt schreib bitte erstmal die URLs auf, die du installiert hast. Ich werde das dann hier mal mit meinem Scanner und openSuSE11.0 nachvollziehen. Dann können wir weitersehen.

eine nächste Distribution wird bestimmt eine andere sein.

Andere Distributionen haben nicht weniger, sondern einfach andere Fehler.

Janka

raspotin · #7 Post by **raspotin** » 29. Mar 2009 12:08

Hallöchen,

> Andere Distributionen haben nicht weniger, sondern einfach andere Fehler.

1.) so viel nicht. Nicht umsonst ist Debian länger getestet.

2.) ... ja andere haben auch Fehler, welche sie dann irgendwann beseitigen.
Ich habe den Eindruck, suse beseitigt diese (manchmal , teilweise, ..) und schafft dann gleichzeitig neue

Letzte nacht Update gemacht (openSUSE 11):

- WLAN verbindet sich nicht mehr, obwohl hohe Feldstärke angezeigt. (UMTS geht noch -gottseidank..)
- Eingebaute Cam (Crystal Eye) geht nicht mehr mit GUI-Programmen:
Skyp ..... kein /dev/video0 gefunden
gqcam ... Error reading Image

(Device, Berechtigung und Gruppenzugehörigkeit unverändert)

Lediglich "motion" verrichtet seinen Dienst .... und macht Bilder

LG
raspotin

Phoenix · #8 Post by **Phoenix** » 29. Mar 2009 17:27

Hallo zusammen,

ob's jetzt zu diesem Thema paßt. möchte ich nicht entscheiden. Deshalb:
Im Linux- Magazin 03.09 ist ab Seite 56 ein mehrseitiger Aretikel zu OCR mit Linux eingestellt. Hauptsächlich geht es dort um Tesseract und Cuneiform (aus Rußland). Ich hab jetzt nicht probiert, ob der Artikel auch frei verfügbar ist. Betitelt ist der Artikel original mit: Freie OCR Software im Test Nachlese. Grundsätzlich habe ich mit der Zeitschrift keine Verträge, daher hoffe ich, daß der Hinweis in Ordnung ist

Nette Grüße

Phoenix

Janka · #9 Post by **Janka** » 30. Mar 2009 8:28

raspotin wrote:Hallöchen,
1.) so viel nicht. Nicht umsonst ist Debian länger getestet.

Du hast Debian stable installiert? Das denke ich eher nicht. Debian unstable und auch testing haben definitiv nicht weniger Fehler als andere aktuelle Distributionen.

2.) ... ja andere haben auch Fehler, welche sie dann irgendwann beseitigen.
Ich habe den Eindruck, suse beseitigt diese (manchmal , teilweise, ..) und schafft dann gleichzeitig neue

Natürlich. Alte Software hat alte Fehler, neue Software hat neue und alte Fehler.

Letzte nacht Update gemacht (openSUSE 11):
- WLAN verbindet sich nicht mehr, obwohl hohe Feldstärke angezeigt. (UMTS geht noch -gottseidank..)

Distributions-Update? Evtl. hattest du vorher den Network-Manager verwendet, jetzt nicht mehr? Oder umgekehrt?

- Eingebaute Cam (Crystal Eye) geht nicht mehr mit GUI-Programmen:
Skyp ..... kein /dev/video0 gefunden
gqcam ... Error reading Image
(Device, Berechtigung und Gruppenzugehörigkeit unverändert)
Lediglich "motion" verrichtet seinen Dienst .... und macht Bilder

Existiert denn /dev/video0? Motion guckt evtl auf /dev/video statt /dev/video0.

Janka

bürohengst · #10 Post by **bürohengst** » 30. Mar 2009 17:02

Hallo, jetzt gehts mit suse

:

linux-sbcx:/home/joern/Download/tesseract # rpm -ihv ocropus-0.1.1-681.1mdv2008.1.x86_64.rpm tesseract-2.03-1mdv2009.0.x86_64.rpm openfst-0.0.beta-1mdv2008.1.x86_64.rpm openfst-devel-0.0.beta-1mdv2008.1.x86_64.rpm
warning: ocropus-0.1.1-681.1mdv2008.1.x86_64.rpm: Header V3 DSA signature: NOKEY, key ID 78d019f5
Preparing... ########################################### [100%]
1:openfst-devel ########################################### [ 25%]
2:tesseract r ########################################### [ 50%]
3:ocropus ########################################### [ 75%]
4:openfst ########################################### [100%]

und der Text sieht jetzt so aus:

inux-sbcx:~/Dokumente/ocr_testvorlage> cat mdv-test.txt
Ziemlich genau vor einem Jahr kündigte Google an, eine Software von HP zu übernehmen
und diese unter der Apache-Lizenz zu veröffentlichen. Die Homepage von Tesseract findet sich
unter code.google.com/p/tesseract—ocr Wenn auch über das vergangene Jahr nicht immer
klar ersichtlich wurde, ob und wie stark an der Software gearbeitet wird, so machte Tesseract
im letzten Sommer einen gewaltigen Schritt nach vorne.
Mit der Version 2.0 ist es nun erstmalig möglich sprachspezifische Texte erkennen zu können.
Mit der Version 2.01 können sogar Fraktur—Te><te erkannt werden. War es am Anfang eher
schwierig Tesseract unter Linux zum Laufen zu bringen, ist das heute relativ einfach machbar.
Bei einigermassen gut gescannten Seiten darf sich die Erkennungsgenauigkeit durchaus sehen
lassen. Sie liegt etwa dort, wo kommerzielle Lösungen um 1998 bis 2000 lagen. Wobei hier
angefügt werden darf, dass sich in Punkto Qualität in den letzten fünf Jahren nicht mehr
sonderlich viel geändert hat.

bye
bürohenst
:

bürohengst · #11 Post by **bürohengst** » 30. Mar 2009 17:09

der Vergleich zu oben

, die seite hat nicht so die hohe Qualität .. aber doch in "bischen" zu Oben sollte erkennbar sein

WebDAV allgemein
Ene bequeme l\/bglichkeit, Dateien Uber das Internet auszutauschen, ist WebDAV. WebDAV ist ein
offener Standard, der in vielen Betriebssystemen unterstutzt w ird. Dabei wird nur das I-l'I'I'P-Protokoll
verw endet, w odurch sich auf einen Schlag mehrere Vorteile ergeben:
I keine neue Serversoftvv are erforderlich (geringerer Enrichtungs- und Wartungsaufw and,
Sicherheit)
I Firew all-freundlich
I idR. keine Konfiguration auf Clientseite erforderlich (keine Port-Freischaltung o.é.)
I Abruf der Dateien mit beliebigem Webbrow ser moglich
I durch l-l'I'I'PAuthentifizierung und .htaccess einfache Benutzerverw altung
I SSL/TLS ermihglicht auch verschlilsselte Ubertragung
I Clients fihr alle Betriebssysteme verfiigbar, in Window s sogar im Explorer standardméI3ig integriert
("Webordner")
Ziel
Ziel ist jetzt die Enrichtung eines sicheren WebDAV-Ordnerbaums. Nur authemifizierte Benutzer sollen
auf die Dateien zugreifen kdnnen, samliche Ubertragungen mussen SSL-verschlusselt ablaufen.
Aul$erdem soll nur ein Benutzer auf die gesamte Ordnerhierarchie zugreifen konnen, alle anderen haben
nur Zugriff auf ihren jew eiligen Ordner.

Pro-Linux

tesseract

tesseract

wie erwartet

nö

Re: nö

mehr Fehler als SuSe?

Freie OCR- Software

Re: mehr Fehler als SuSe?

gelöst

Nachtrag