pdf2word pdf2docx

Antworten
Nachricht
Autor
franky789
Beiträge: 2
Registriert: 21. Sep 2013 16:53
Wohnort: 60327 Frankfurt

pdf2word pdf2docx

#1 Beitrag von franky789 » 21. Sep 2013 17:09

Hallo,
ich suche schon eine ganze weile nach einem Tool, auf shell ebene, das ich in meinem script benutzen kann um pdf's ( etwa 2000 ) in verschiedenen Unterordnern (bis zu 4 ebenen) in .docx um zu wandeln.
Leider fand ich nur Tools für "Windows" oder MAC, die aber auch keine "batch" Funktion, wie ich sie brauche, liefern.
Die PDF's sind nicht aufwendig gestaltet, ein paar Bilder Überschriften Text....
... gibt es denn nicht ein Tool wie pdf2docx oder so ...

Beim suchen in gogle wird man immer auf die "Windows" Tools umgerutet !?

Besten Dank im Voraus
Gruss Franky

Benutzeravatar
Janka
Beiträge: 3573
Registriert: 11. Feb 2006 19:10

#2 Beitrag von Janka » 21. Sep 2013 20:15

Ein Konverter PDF->Textverarbeitung scheitert allgemein schon daran, dass ein PDF keine Textrepräsentation enthalten muss. Von LaTeX oder Scribus erzeugte PDFs enthalten z.B. jeden Buchstaben einzeln, um die Position der Zeichen pixelgenau festlegen zu können. Aus solchen PDFs kann man nichtmal Strings extrahieren.

Wenn du keine Beispiele gibst, kann man dir keinen Tipp geben, was zu tun ist.

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

franky789
Beiträge: 2
Registriert: 21. Sep 2013 16:53
Wohnort: 60327 Frankfurt

pdf2word pdf2docx pdf converter

#3 Beitrag von franky789 » 22. Sep 2013 17:47

Ich habe, wie schon geschrieben, mehrere grosse mehrseitige PDF Dokumente von 500 bis zu 2000 Seiten, die "nicht" mit Word erstellt wurde !
Nun, zur weiter Verarbeitung der einzelnen Dokumente hätte ich gerne Word genutzt, das aktuelle Word hat nun mal als Standard .docx, natürlich würde auch .doc gehen aber da bin ich mir nicht ganz sicher ob das ursprüngliche Format erhalten bleibt.

Auf meinem MAC nutze ich "Cycle PDF Converter" der das super in .docx convertiert, leider taugt das tool nicht für eine batch Routine.

Das sollte es doch auch für Linux geben, halt für den Shell betrieb.

Benutzeravatar
Janka
Beiträge: 3573
Registriert: 11. Feb 2006 19:10

#4 Beitrag von Janka » 22. Sep 2013 18:04

Die Probier-Version des TET von PDFlib.com sollte das können.

Janka
Ich vertonne Spam immer in /dev/dsp statt /dev/null.
Ich mag die Schreie.

Antworten