Page 1 of 1

pdf2word pdf2docx

Posted: 21. Sep 2013 17:09
by franky789
Hallo,
ich suche schon eine ganze weile nach einem Tool, auf shell ebene, das ich in meinem script benutzen kann um pdf's ( etwa 2000 ) in verschiedenen Unterordnern (bis zu 4 ebenen) in .docx um zu wandeln.
Leider fand ich nur Tools für "Windows" oder MAC, die aber auch keine "batch" Funktion, wie ich sie brauche, liefern.
Die PDF's sind nicht aufwendig gestaltet, ein paar Bilder Überschriften Text....
... gibt es denn nicht ein Tool wie pdf2docx oder so ...

Beim suchen in gogle wird man immer auf die "Windows" Tools umgerutet !?

Besten Dank im Voraus
Gruss Franky

Posted: 21. Sep 2013 20:15
by Janka
Ein Konverter PDF->Textverarbeitung scheitert allgemein schon daran, dass ein PDF keine Textrepräsentation enthalten muss. Von LaTeX oder Scribus erzeugte PDFs enthalten z.B. jeden Buchstaben einzeln, um die Position der Zeichen pixelgenau festlegen zu können. Aus solchen PDFs kann man nichtmal Strings extrahieren.

Wenn du keine Beispiele gibst, kann man dir keinen Tipp geben, was zu tun ist.

Janka

pdf2word pdf2docx pdf converter

Posted: 22. Sep 2013 17:47
by franky789
Ich habe, wie schon geschrieben, mehrere grosse mehrseitige PDF Dokumente von 500 bis zu 2000 Seiten, die "nicht" mit Word erstellt wurde !
Nun, zur weiter Verarbeitung der einzelnen Dokumente hätte ich gerne Word genutzt, das aktuelle Word hat nun mal als Standard .docx, natürlich würde auch .doc gehen aber da bin ich mir nicht ganz sicher ob das ursprüngliche Format erhalten bleibt.

Auf meinem MAC nutze ich "Cycle PDF Converter" der das super in .docx convertiert, leider taugt das tool nicht für eine batch Routine.

Das sollte es doch auch für Linux geben, halt für den Shell betrieb.

Posted: 22. Sep 2013 18:04
by Janka
Die Probier-Version des TET von PDFlib.com sollte das können.

Janka