agorum® erfasst positionsgenau Metadaten aus PDF-Dateien

Hier kann jeder Nachrichten posten - von einem Satz mit URL bis hin zu ausgefeilten Artikeln.
Post Reply
Message
Author
oliver.schulze
Posts: 67
Joined: 05. Aug 2010 9:18

agorum® erfasst positionsgenau Metadaten aus PDF-Dateien

#1 Post by oliver.schulze »

Eine Erweiterung des bewährten agorum® DocForm-Moduls ermöglicht die positionsgenaue Erfassung von Informationen aus durchsuchbaren PDF-Dateien, ohne den bisher dazu benötigten OCR-Server. Damit kann das Open Source Dokumentenmanagement-System agorum® core PDF-Dateien, die aus Fremdsystemen gedruckt werden oder mit einer eigenen Texterkennungs-Software erfasst wurden, automatisch verarbeiten und mit Metadaten wie beispielsweise Kunden-, Lieferanten- oder Rechnungsnummer, Datum, usw. versehen.

Ostfildern 16.08.2012 – Ohne den bisher benötigten, in das Dokumentenmanagement-System integrierten OCR-Server, kann die erweiterte Version des agorum® DocForm-Moduls Informationen aus durchsuchbaren PDF-Dateien positionsgenau erfassen. Die genaue Position der gewünschten Metadaten eines Dokumentes zu kennen ist wichtig, um sicher zu sein, dass die richtigen Informationen erfasst werden. Der Begriff „Rechnungsnummer“ kann ja möglicherweise in einem Dokument mehr als einmal auftauchen, es soll aber nur die Rechnungsnummer erfasst werden, die im Dokument z.B. rechts oben neben dem Begriff „Rechnungsnummer“ vermerkt ist. Um das zu erreichen, trainiert man einfach die Rechnung mit dem agorum®-DocForm-Trainer, in dem man auf der Rechnung mit der Maus den Bereich eingrenzt in dem die Rechnungsnummer steht. Auf allen folgenden Rechnungen dieses Absenders werden die Rechnungsnummern nun automatisch als Metadaten erfasst. Das spart viel Zeit bei der Erfassung und beschleunigt die Suche nach einem bestimmten Dokument ungemein, da gezielt nach diesen Metadaten gesucht werden kann.

Bisher war diese Positionserkennung in agorum® core nur möglich, wenn als Zusatzmodul der OCR-Server installiert war, mit DocForm-Extended ist es nun möglich, alle durchsuchbare PDF-Dateien auch ohne den OCR-Server mit dem DocForm-Modul zu verarbeiten. Das können PDF-Dateien sein, die mit einer anderen Texterfassungs-Software erfasst worden sind, oder PDF-Dateien die aus einer Software heraus als durchsuchbares PDF erstellt wurden.

Der besondere Clou: Integration von Dritt-Software ohne programmierte Schnittstelle

Mit DocForm-Extended und dem agorum® DMS-Laufwerk lässt sich im Prinzip jede Software, die durchsuchbare PDF-Dateien erzeugen kann ohne Schnittstellen-Programmierung in agorum® core integrieren. Beispielsweise können durchsuchbare PDF-Dateien aus einem ERP-System einfach in ein Verzeichnis im Dokumentenmanagement-System gedruckt werden, von dort mit dem DocForm-Modul Extended weiterverarbeitet und mit den ausgelesenen Metadaten sicher und schnell durchsuchbar archiviert werden.
DocForm Extended wird ab Ende September verfügbar sein.

Weitere Informationen zum DocForm-Modul unter:
http://www.agorum.com/docform
Open Source Dokumentenmanagement-System agorum core: http://www.agorum.com

Post Reply