Document Managemant _and_ scan support

Message

XJan · #1 Post by **XJan** » 15. Mar 2010 11:41

Hi,

ich möchte Dokumente einscannen, diese speichern, indizieren lassen und damit suchbar machen lassen (soweit das geht) und mit einer Beschreibung bzw Schlagwörtern ausstatten. Dazu suche ich eine Software, die dies weitgehend automatisch macht. Welche Document Managemant Software unterstützt dies?
Vor allem beim erfassen, also scannen, habe ich noch keinen passenden Kandidaten gefunden. Es reicht mir, wenn dies alles allein auf meinem Desktop funktionieren würde.

Jan

Janka · #2 Post by **Janka** » 15. Mar 2010 12:49

Scannen, dann indizieren? Das setzt OCR voraus, wofür es unter Linux WIMRE keine wirklich tollen freien Lösungen gibt.

Wie stellst du dir automatisiertes Scannen genau vor? Hast du einen Scanner mit Vorlageneinzug? Dann sollte es ein Miniskript mit einer Schleife um "scanimage" tun. Falls manuelle Eingriffe notwendig sind, kann man mit sehr wenig Aufwand eine GUI mit Tk und einer Skriptsprache stricken.

Janka

XJan · #3 Post by **XJan** » 15. Mar 2010 14:04

Es ist ein normaler Scanner und ich würde die Blätter also selber einlegen, umdrehen etc.
Aber dann die Bilder automatisch ablegen und bearbeiten, da suche ich eine Lösung.
Das selber zu stricken traue ich mir auch soweit zu, nur hatte ich gehofft, dass es da schon etwas gibt, was diese Arbeitsschritte unterstützt, als es selber zu basteln.
Ich hatte diesen Wunsch der Datenhaltung nicht für so abstrus gehalten, dass nicht wer anders das schon umgesetzt hätte. Ich wollte dieses Rad nicht neu implementieren.

XJan · #4 Post by **XJan** » 15. Mar 2010 14:11

Zumindest zu Linux und OCR habe ich die folgenden Verdächtigen gefunden:
gocr, orcad, tesseract und evtl cuneiform.

brum · #5 Post by **brum** » 15. Mar 2010 17:18

Hallo,

Code: Select all

gocr, orcad, tesseract und evtl cuneiform.

gocr und orcad kannst'e vergessen. cuneform setzt auf tesseract auf.

tesseract funktioniert manchmal ganz gut und manchmal weniger gut ;( je nach Binary, da gibt's wahrscheinlich viel Mist im Umlauf....

Gute Erfahrung hatte ich mit der Mandriva 2007-Version mit 98% Erkennung.

Profi-Software gibt's bei Abbyy: Fine Reader Engine 8.0 CLI für Linux , kostste nach Seitenzahl, z.B bei Bei 12.000 Seiten pro Jahr sind rund 150 EUR fällig

bye brum

Phoenix · #6 Post by **Phoenix** » 15. Mar 2010 17:27

Hallo XJan,

<<Zumindest zu Linux und OCR habe ich die folgenden Verdächtigen gefunden:
gocr, orcad, tesseract und evtl cuneiform.>>

Wie Janka schon feststellte:

<<Scannen, ... Das setzt OCR voraus, wofür es unter Linux WIMRE keine wirklich tollen freien Lösungen gibt.>>

Das kann ich (leider) nur bestätigen, mehrfach habe ich versucht, das im Linux optimale Werkzeug zu finden; aber ein uraltes (!) WIN- Tool (8 oder 10 Jahre alt) kann das immer noch wesentlich besser, sogar besser als ein 2 Jahre altes Tool im WIN.

Tesseract hat angeblich eine GUI, die habe ich selbst aber noch nie aktivieren können. Hast Du oft PDF- Textdokumente, hilft am besten PDFtoTEXT (Konsolentool); für direkte Textscans muß ich immer noch den Umweg über die VirtualBox mit WIN nehmen, weil die Linux- OCRs soviel Nacharbeit erfordern, daß ich alles gleich besser direkt abtippen könnte...

Vielleicht hat jemand aus dem Kreis hier noch die unbekannte Linuxlösung im Ärmel?

Nette Grüße

Phoenix

Pro-Linux

Document Managemant _and_ scan support

Document Managemant _and_ scan support

ocr

OCR im Linux