pdf2word pdf2docx

Post Reply
Message
Author
franky789
Posts: 2
Joined: 21. Sep 2013 16:53
Location: 60327 Frankfurt

pdf2word pdf2docx

#1 Post by franky789 »

Hallo,
ich suche schon eine ganze weile nach einem Tool, auf shell ebene, das ich in meinem script benutzen kann um pdf's ( etwa 2000 ) in verschiedenen Unterordnern (bis zu 4 ebenen) in .docx um zu wandeln.
Leider fand ich nur Tools für "Windows" oder MAC, die aber auch keine "batch" Funktion, wie ich sie brauche, liefern.
Die PDF's sind nicht aufwendig gestaltet, ein paar Bilder Überschriften Text....
... gibt es denn nicht ein Tool wie pdf2docx oder so ...

Beim suchen in gogle wird man immer auf die "Windows" Tools umgerutet !?

Besten Dank im Voraus
Gruss Franky

User avatar
Janka
Posts: 3585
Joined: 11. Feb 2006 19:10

#2 Post by Janka »

Ein Konverter PDF->Textverarbeitung scheitert allgemein schon daran, dass ein PDF keine Textrepräsentation enthalten muss. Von LaTeX oder Scribus erzeugte PDFs enthalten z.B. jeden Buchstaben einzeln, um die Position der Zeichen pixelgenau festlegen zu können. Aus solchen PDFs kann man nichtmal Strings extrahieren.

Wenn du keine Beispiele gibst, kann man dir keinen Tipp geben, was zu tun ist.

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

franky789
Posts: 2
Joined: 21. Sep 2013 16:53
Location: 60327 Frankfurt

pdf2word pdf2docx pdf converter

#3 Post by franky789 »

Ich habe, wie schon geschrieben, mehrere grosse mehrseitige PDF Dokumente von 500 bis zu 2000 Seiten, die "nicht" mit Word erstellt wurde !
Nun, zur weiter Verarbeitung der einzelnen Dokumente hätte ich gerne Word genutzt, das aktuelle Word hat nun mal als Standard .docx, natürlich würde auch .doc gehen aber da bin ich mir nicht ganz sicher ob das ursprüngliche Format erhalten bleibt.

Auf meinem MAC nutze ich "Cycle PDF Converter" der das super in .docx convertiert, leider taugt das tool nicht für eine batch Routine.

Das sollte es doch auch für Linux geben, halt für den Shell betrieb.

User avatar
Janka
Posts: 3585
Joined: 11. Feb 2006 19:10

#4 Post by Janka »

Die Probier-Version des TET von PDFlib.com sollte das können.

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

Post Reply