tesseract
tesseract
Hallo Leute,
Frage zu Tesseract in Abhängigkeit der Distributionen:
Ich habe auf Mandriva Tesseract installiert und kann damit mit zufriedenstellender Erkenneung OCR ausführen.
Das gleiche wollte ich auf OpneSuse 11 machen. ;(
Unter http://rpm.pbone.net konnte ich mir viele "Versionen" von Tessseract OpenSuse 11 hreunterladen. Die vielen Versionen unterschieden sich in der Dateigröße! Ein und die selber Version hatte mal 3MB, mal 10 MB.
Keine aber brachte eine eine vernünftige Erkennung zu stande.
Weiß jemand, welche Tesseract-SuSE-Quelle funktioniert?
Viele Grüße
bürohengst
Frage zu Tesseract in Abhängigkeit der Distributionen:
Ich habe auf Mandriva Tesseract installiert und kann damit mit zufriedenstellender Erkenneung OCR ausführen.
Das gleiche wollte ich auf OpneSuse 11 machen. ;(
Unter http://rpm.pbone.net konnte ich mir viele "Versionen" von Tessseract OpenSuse 11 hreunterladen. Die vielen Versionen unterschieden sich in der Dateigröße! Ein und die selber Version hatte mal 3MB, mal 10 MB.
Keine aber brachte eine eine vernünftige Erkennung zu stande.
Weiß jemand, welche Tesseract-SuSE-Quelle funktioniert?
Viele Grüße
bürohengst
Software für openSUSE holt man am besten von openSUSE.
http://software.opensuse.org/search
Oder gleich den Build-Service als Quelle in YaST eintragen (Community-Repositories) und dann über YaST installieren.
Janka
http://software.opensuse.org/search
Oder gleich den Build-Service als Quelle in YaST eintragen (Community-Repositories) und dann über YaST installieren.
Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.
Ich mag die Schreie.
wie erwartet
"U'\fel:•lI)4¤n.\/ allgerneiri
Eirwe l:•eq¤_,¤er*r1e IN./lögIic:l·1l<eit, lI)ateie¤
cufferwer Etarwclarcl, der ir: vielerw E6
xzervv erwclet, vv odtgrcfw sic:l·1 apnf eir
— l·<eir1e r1eL,¤e Eerxrersoftvv ars
Eiczlwerlweit}
— Izirevv all—freL4r1clIict1
— icllä. l<eir1e I<or1fig¤_,¤ratior1 atm
— ,¤«.l:•rL,¤f der E)ateier1 r*r1it lcueliel
— cIL,|r(:I'*n I—I"I—I’I:* 4¤«L,|tI'1er1tifizierL,|
— EE!./71.5 err*r1öglic:l·1t atgctw v
— vilierwts fullnr alle Eetrielcnssys
("\/xfelcuordrwer"}
Ziel
Ziel ist jetzt die lEir1ric:l·1t¤_,¤r1g eines
epnf die E)ateier1 zpngreiferw körwrwerw
,¤«.¤_,¤I’3ercler*r1 soll r1¤_,¤r eirw Eerwpntzer E
r*u_,¤r Zpngriff apnf il·1rer1 jevv eiligerw E
Viele grüße von der suse
Eirwe l:•eq¤_,¤er*r1e IN./lögIic:l·1l<eit, lI)ateie¤
cufferwer Etarwclarcl, der ir: vielerw E6
xzervv erwclet, vv odtgrcfw sic:l·1 apnf eir
— l·<eir1e r1eL,¤e Eerxrersoftvv ars
Eiczlwerlweit}
— Izirevv all—freL4r1clIict1
— icllä. l<eir1e I<or1fig¤_,¤ratior1 atm
— ,¤«.l:•rL,¤f der E)ateier1 r*r1it lcueliel
— cIL,|r(:I'*n I—I"I—I’I:* 4¤«L,|tI'1er1tifizierL,|
— EE!./71.5 err*r1öglic:l·1t atgctw v
— vilierwts fullnr alle Eetrielcnssys
("\/xfelcuordrwer"}
Ziel
Ziel ist jetzt die lEir1ric:l·1t¤_,¤r1g eines
epnf die E)ateier1 zpngreiferw körwrwerw
,¤«.¤_,¤I’3ercler*r1 soll r1¤_,¤r eirw Eerwpntzer E
r*u_,¤r Zpngriff apnf il·1rer1 jevv eiligerw E
Viele grüße von der suse
Hast du das deutsche Sprachpaket installiert? Für openSuSE11.1 gibt es eins (neben Spanisch, Niederländisch, Französisch und Italienisch), das sollte auch für ältere SuSE-Versionen passen. Ohne passendes Sprachpaket kann Tesseract nur englische Texte erfassen.
Nimmst du immer die gleiche Scandatei als Grundlage oder scannst du jedes mal neu? Sonst könnten andere Scannereinstellungen auch der Grund für deine Probleme sein.
Ansonsten würde ich mal gucken, ob man an den Einstellungen für Tesseract noch drehen kann.
Janka
Nimmst du immer die gleiche Scandatei als Grundlage oder scannst du jedes mal neu? Sonst könnten andere Scannereinstellungen auch der Grund für deine Probleme sein.
Ansonsten würde ich mal gucken, ob man an den Einstellungen für Tesseract noch drehen kann.
Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.
Ich mag die Schreie.
nö
Moin,
danke für Deine Mühe, aber
für SuSE 11. gibt es unter dieser Quelle keine Sprachpaket für deutsch.
Aber wie englisch sieht der Scan-OCR aber auch nicht gerade aus.....
Noch schlimmer ist die Qualität des von dieser Quelle installierten OCRopus. Das startet erst gar nicht. weil Pfadangaben falsch sind und Dateien fehlen.
Bei Bei OpenSuSE werden scheinbar nur irgendwie der Vollständigkeit Pakete hinterlegt, ohne das diese anhaltsweise mal probiert wurden, von qualifizierten Tests ganz zu schweigen.
Meine nächste Distribution wird bestimmt eine andere sein.
Gruß
danke für Deine Mühe, aber
für SuSE 11. gibt es unter dieser Quelle keine Sprachpaket für deutsch.
Aber wie englisch sieht der Scan-OCR aber auch nicht gerade aus.....
Noch schlimmer ist die Qualität des von dieser Quelle installierten OCRopus. Das startet erst gar nicht. weil Pfadangaben falsch sind und Dateien fehlen.
Bei Bei OpenSuSE werden scheinbar nur irgendwie der Vollständigkeit Pakete hinterlegt, ohne das diese anhaltsweise mal probiert wurden, von qualifizierten Tests ganz zu schweigen.
Meine nächste Distribution wird bestimmt eine andere sein.
Gruß
Re: nö
Das ist falsch. Es gibt ein Sprachpaket für openSuSE11.1. Wähle das im Selektor aus. Die Sprachpakete sollten auch mit openSuSE11.0 funktionieren.bürohengst wrote: für SuSE 11. gibt es unter dieser Quelle keine Sprachpaket für deutsch.
Wenn er keine englischen Worte finden kann, hält er alles für Satz- und Sonderzeichen. Eigentlich logisch, oder?Aber wie englisch sieht der Scan-OCR aber auch nicht gerade aus.....
Jetzt schreib bitte erstmal die URLs auf, die du installiert hast. Ich werde das dann hier mal mit meinem Scanner und openSuSE11.0 nachvollziehen. Dann können wir weitersehen.Noch schlimmer ist die Qualität des von dieser Quelle installierten OCRopus. Das startet erst gar nicht. weil Pfadangaben falsch sind und Dateien fehlen.
Andere Distributionen haben nicht weniger, sondern einfach andere Fehler.eine nächste Distribution wird bestimmt eine andere sein.
Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.
Ich mag die Schreie.
mehr Fehler als SuSe?
Hallöchen,
> Andere Distributionen haben nicht weniger, sondern einfach andere Fehler.
1.) so viel nicht. Nicht umsonst ist Debian länger getestet.
2.) ... ja andere haben auch Fehler, welche sie dann irgendwann beseitigen.
Ich habe den Eindruck, suse beseitigt diese (manchmal , teilweise, ..) und schafft dann gleichzeitig neue
Letzte nacht Update gemacht (openSUSE 11):
- WLAN verbindet sich nicht mehr, obwohl hohe Feldstärke angezeigt. (UMTS geht noch -gottseidank..)
- Eingebaute Cam (Crystal Eye) geht nicht mehr mit GUI-Programmen:
Skyp ..... kein /dev/video0 gefunden
gqcam ... Error reading Image
(Device, Berechtigung und Gruppenzugehörigkeit unverändert)
Lediglich "motion" verrichtet seinen Dienst .... und macht Bilder
LG
raspotin
> Andere Distributionen haben nicht weniger, sondern einfach andere Fehler.
1.) so viel nicht. Nicht umsonst ist Debian länger getestet.
2.) ... ja andere haben auch Fehler, welche sie dann irgendwann beseitigen.
Ich habe den Eindruck, suse beseitigt diese (manchmal , teilweise, ..) und schafft dann gleichzeitig neue
Letzte nacht Update gemacht (openSUSE 11):
- WLAN verbindet sich nicht mehr, obwohl hohe Feldstärke angezeigt. (UMTS geht noch -gottseidank..)
- Eingebaute Cam (Crystal Eye) geht nicht mehr mit GUI-Programmen:
Skyp ..... kein /dev/video0 gefunden
gqcam ... Error reading Image
(Device, Berechtigung und Gruppenzugehörigkeit unverändert)
Lediglich "motion" verrichtet seinen Dienst .... und macht Bilder
LG
raspotin
Freie OCR- Software
Hallo zusammen,
ob's jetzt zu diesem Thema paßt. möchte ich nicht entscheiden. Deshalb:
Im Linux- Magazin 03.09 ist ab Seite 56 ein mehrseitiger Aretikel zu OCR mit Linux eingestellt. Hauptsächlich geht es dort um Tesseract und Cuneiform (aus Rußland). Ich hab jetzt nicht probiert, ob der Artikel auch frei verfügbar ist. Betitelt ist der Artikel original mit: Freie OCR Software im Test Nachlese. Grundsätzlich habe ich mit der Zeitschrift keine Verträge, daher hoffe ich, daß der Hinweis in Ordnung ist
Nette Grüße
Phoenix
ob's jetzt zu diesem Thema paßt. möchte ich nicht entscheiden. Deshalb:
Im Linux- Magazin 03.09 ist ab Seite 56 ein mehrseitiger Aretikel zu OCR mit Linux eingestellt. Hauptsächlich geht es dort um Tesseract und Cuneiform (aus Rußland). Ich hab jetzt nicht probiert, ob der Artikel auch frei verfügbar ist. Betitelt ist der Artikel original mit: Freie OCR Software im Test Nachlese. Grundsätzlich habe ich mit der Zeitschrift keine Verträge, daher hoffe ich, daß der Hinweis in Ordnung ist
Nette Grüße
Phoenix
Für kein Tier tut man so viel wie für die Katz!
3 BS aktuell
openSUSE 13.1-64 KDE auf Hauptplatte
Mageia 4-64 KDE auf USB- Platte
openSUSE 13.1-64 KDE auf USB- Platte mit Starter BodhiLinux 1.4.0
3 BS aktuell
openSUSE 13.1-64 KDE auf Hauptplatte
Mageia 4-64 KDE auf USB- Platte
openSUSE 13.1-64 KDE auf USB- Platte mit Starter BodhiLinux 1.4.0
Re: mehr Fehler als SuSe?
Du hast Debian stable installiert? Das denke ich eher nicht. Debian unstable und auch testing haben definitiv nicht weniger Fehler als andere aktuelle Distributionen.raspotin wrote:Hallöchen,
1.) so viel nicht. Nicht umsonst ist Debian länger getestet.
Natürlich. Alte Software hat alte Fehler, neue Software hat neue und alte Fehler.2.) ... ja andere haben auch Fehler, welche sie dann irgendwann beseitigen.
Ich habe den Eindruck, suse beseitigt diese (manchmal , teilweise, ..) und schafft dann gleichzeitig neue
Distributions-Update? Evtl. hattest du vorher den Network-Manager verwendet, jetzt nicht mehr? Oder umgekehrt?Letzte nacht Update gemacht (openSUSE 11):
- WLAN verbindet sich nicht mehr, obwohl hohe Feldstärke angezeigt. (UMTS geht noch -gottseidank..)
Existiert denn /dev/video0? Motion guckt evtl auf /dev/video statt /dev/video0.- Eingebaute Cam (Crystal Eye) geht nicht mehr mit GUI-Programmen:
Skyp ..... kein /dev/video0 gefunden
gqcam ... Error reading Image
(Device, Berechtigung und Gruppenzugehörigkeit unverändert)
Lediglich "motion" verrichtet seinen Dienst .... und macht Bilder
Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.
Ich mag die Schreie.
gelöst
Hallo, jetzt gehts mit suse :
linux-sbcx:/home/joern/Download/tesseract # rpm -ihv ocropus-0.1.1-681.1mdv2008.1.x86_64.rpm tesseract-2.03-1mdv2009.0.x86_64.rpm openfst-0.0.beta-1mdv2008.1.x86_64.rpm openfst-devel-0.0.beta-1mdv2008.1.x86_64.rpm
warning: ocropus-0.1.1-681.1mdv2008.1.x86_64.rpm: Header V3 DSA signature: NOKEY, key ID 78d019f5
Preparing... ########################################### [100%]
1:openfst-devel ########################################### [ 25%]
2:tesseract r ########################################### [ 50%]
3:ocropus ########################################### [ 75%]
4:openfst ########################################### [100%]
und der Text sieht jetzt so aus:
inux-sbcx:~/Dokumente/ocr_testvorlage> cat mdv-test.txt
Ziemlich genau vor einem Jahr kündigte Google an, eine Software von HP zu übernehmen
und diese unter der Apache-Lizenz zu veröffentlichen. Die Homepage von Tesseract findet sich
unter code.google.com/p/tesseract—ocr Wenn auch über das vergangene Jahr nicht immer
klar ersichtlich wurde, ob und wie stark an der Software gearbeitet wird, so machte Tesseract
im letzten Sommer einen gewaltigen Schritt nach vorne.
Mit der Version 2.0 ist es nun erstmalig möglich sprachspezifische Texte erkennen zu können.
Mit der Version 2.01 können sogar Fraktur—Te><te erkannt werden. War es am Anfang eher
schwierig Tesseract unter Linux zum Laufen zu bringen, ist das heute relativ einfach machbar.
Bei einigermassen gut gescannten Seiten darf sich die Erkennungsgenauigkeit durchaus sehen
lassen. Sie liegt etwa dort, wo kommerzielle Lösungen um 1998 bis 2000 lagen. Wobei hier
angefügt werden darf, dass sich in Punkto Qualität in den letzten fünf Jahren nicht mehr
sonderlich viel geändert hat.
bye
bürohenst
:
linux-sbcx:/home/joern/Download/tesseract # rpm -ihv ocropus-0.1.1-681.1mdv2008.1.x86_64.rpm tesseract-2.03-1mdv2009.0.x86_64.rpm openfst-0.0.beta-1mdv2008.1.x86_64.rpm openfst-devel-0.0.beta-1mdv2008.1.x86_64.rpm
warning: ocropus-0.1.1-681.1mdv2008.1.x86_64.rpm: Header V3 DSA signature: NOKEY, key ID 78d019f5
Preparing... ########################################### [100%]
1:openfst-devel ########################################### [ 25%]
2:tesseract r ########################################### [ 50%]
3:ocropus ########################################### [ 75%]
4:openfst ########################################### [100%]
und der Text sieht jetzt so aus:
inux-sbcx:~/Dokumente/ocr_testvorlage> cat mdv-test.txt
Ziemlich genau vor einem Jahr kündigte Google an, eine Software von HP zu übernehmen
und diese unter der Apache-Lizenz zu veröffentlichen. Die Homepage von Tesseract findet sich
unter code.google.com/p/tesseract—ocr Wenn auch über das vergangene Jahr nicht immer
klar ersichtlich wurde, ob und wie stark an der Software gearbeitet wird, so machte Tesseract
im letzten Sommer einen gewaltigen Schritt nach vorne.
Mit der Version 2.0 ist es nun erstmalig möglich sprachspezifische Texte erkennen zu können.
Mit der Version 2.01 können sogar Fraktur—Te><te erkannt werden. War es am Anfang eher
schwierig Tesseract unter Linux zum Laufen zu bringen, ist das heute relativ einfach machbar.
Bei einigermassen gut gescannten Seiten darf sich die Erkennungsgenauigkeit durchaus sehen
lassen. Sie liegt etwa dort, wo kommerzielle Lösungen um 1998 bis 2000 lagen. Wobei hier
angefügt werden darf, dass sich in Punkto Qualität in den letzten fünf Jahren nicht mehr
sonderlich viel geändert hat.
bye
bürohenst
:
Nachtrag
der Vergleich zu oben , die seite hat nicht so die hohe Qualität .. aber doch in "bischen" zu Oben sollte erkennbar sein
WebDAV allgemein
Ene bequeme l\/bglichkeit, Dateien Uber das Internet auszutauschen, ist WebDAV. WebDAV ist ein
offener Standard, der in vielen Betriebssystemen unterstutzt w ird. Dabei wird nur das I-l'I'I'P-Protokoll
verw endet, w odurch sich auf einen Schlag mehrere Vorteile ergeben:
I keine neue Serversoftvv are erforderlich (geringerer Enrichtungs- und Wartungsaufw and,
Sicherheit)
I Firew all-freundlich
I idR. keine Konfiguration auf Clientseite erforderlich (keine Port-Freischaltung o.é.)
I Abruf der Dateien mit beliebigem Webbrow ser moglich
I durch l-l'I'I'PAuthentifizierung und .htaccess einfache Benutzerverw altung
I SSL/TLS ermihglicht auch verschlilsselte Ubertragung
I Clients fihr alle Betriebssysteme verfiigbar, in Window s sogar im Explorer standardméI3ig integriert
("Webordner")
Ziel
Ziel ist jetzt die Enrichtung eines sicheren WebDAV-Ordnerbaums. Nur authemifizierte Benutzer sollen
auf die Dateien zugreifen kdnnen, samliche Ubertragungen mussen SSL-verschlusselt ablaufen.
Aul$erdem soll nur ein Benutzer auf die gesamte Ordnerhierarchie zugreifen konnen, alle anderen haben
nur Zugriff auf ihren jew eiligen Ordner.
WebDAV allgemein
Ene bequeme l\/bglichkeit, Dateien Uber das Internet auszutauschen, ist WebDAV. WebDAV ist ein
offener Standard, der in vielen Betriebssystemen unterstutzt w ird. Dabei wird nur das I-l'I'I'P-Protokoll
verw endet, w odurch sich auf einen Schlag mehrere Vorteile ergeben:
I keine neue Serversoftvv are erforderlich (geringerer Enrichtungs- und Wartungsaufw and,
Sicherheit)
I Firew all-freundlich
I idR. keine Konfiguration auf Clientseite erforderlich (keine Port-Freischaltung o.é.)
I Abruf der Dateien mit beliebigem Webbrow ser moglich
I durch l-l'I'I'PAuthentifizierung und .htaccess einfache Benutzerverw altung
I SSL/TLS ermihglicht auch verschlilsselte Ubertragung
I Clients fihr alle Betriebssysteme verfiigbar, in Window s sogar im Explorer standardméI3ig integriert
("Webordner")
Ziel
Ziel ist jetzt die Enrichtung eines sicheren WebDAV-Ordnerbaums. Nur authemifizierte Benutzer sollen
auf die Dateien zugreifen kdnnen, samliche Ubertragungen mussen SSL-verschlusselt ablaufen.
Aul$erdem soll nur ein Benutzer auf die gesamte Ordnerhierarchie zugreifen konnen, alle anderen haben
nur Zugriff auf ihren jew eiligen Ordner.