PDF-Tools für die Konsole
pdfinfo, pdffonts, pdftk, pdftotext, pdftoppm, pdftoimages, psutils
PDF-Dateien können auf der Konsole unter Linux in vielfälltiger Art und Weise bearbeitet werden. Einige PDF-Tools werden an dieser Stelle kurz vorgestellt.
pdfinfo
Wenn man etwas über eine PDF-Datei erfahren möchte, dann verwendet man pdfinfo dateiname
. Man erhält dann eine Übersicht über die PDF-Datei.
$ pdfinfo documentation_de.pdf Title: Handbuch Archivista 2011/IV Subject: Archivista Keywords: Archivista Author: Archivista GmbH Creator: LaTeX with hyperref package Producer: pdfTeX-1.40.3 CreationDate: Mon Apr 4 00:32:40 2011 ModDate: Mon Apr 4 00:32:40 2011 Tagged: no Pages: 290 Encrypted: no Page size: 841.89 x 595.276 pts (A4) File size: 9979665 bytes Optimized: no PDF version: 1.4
pdffonts
Manchmal interessiert auch, welche Zeichensätze in einer PDF-Datei enthalten sind. Dazu verwenden wir pdffonts
.
pdffonts archivistavm-linuxday2011.pdf name type emb sub uni object ID ------------------------------------ ----------------- --- --- --- --------- UJCUYV+LMSans10-Bold Type 1 yes yes no 132 0 CZFTVT+LMSans10-Regular Type 1 yes yes no 133 0 JXAKKN+LMSans12-Regular Type 1 yes yes no 135 0 AQTFCU+CMSY10 Type 1 yes yes no 140 0 ESGPRJ+LMMathSymbols10-Italic Type 1 yes yes no 141 0 DZJEER+LMTypewriter10-Dark Type 1 yes yes no 152
pdftk
Möchte man einige Seiten aus der Datei herausschneiden, kann man pdftk
verwenden. Auch dazu ein Beispiel:
pdftk documentation_de.pdf cat 2-7 output inhalt.pdf
Mit diesem Befehl wurden die Seiten 2 bis 7 aus der Ursprungsdatei in die neue Datei extrahiert. Die beiden wichtigsten Befehle in pdftk
lauten cat
(Ausschneiden von Seiten) und output
(Ausgabe in neue Datei). Ebenfalls möglich ist es, mehrere Dateien zusammenzuhängen. Dazu verwenden wir pdftk inhalt1.pdf inhalt2.pdf output gesamt.pdf
.
pdftotext
Oft benötigt man nur den Text einer PDF-Datei. Dazu verwendet man pdftotext dateiname.pdf
. Dabei entsteht die Datei dateiname.txt
. Mit pdftotext -raw dateiname.txt
erhält man den Text in möglichst lesbarer Form (einzeilig).
pdftoppm
Manchmal möchte man die Seiten der PDF-Datei in Bilder umwandeln. Dazu verwendet man pdftoppm
. Normalerweise sollte die Auflösung mit angegeben werden, da 150 DPI doch eher eine mickrige Auflösung darstellt. Dazu ein Beispiel:
pdftoppm -f 1 -l 4 archivistavm-linuxday2011.pdf -mono base archivista@archivista:~/data/kvm2$ ls -ls base-00000* 272 -rw-r--r-- 1 archivista users 271883 2011-12-04 00:31 base-000001.pbm 268 -rw-r--r-- 1 archivista users 271883 2011-12-04 00:31 base-000002.pbm 268 -rw-r--r-- 1 archivista users 271883 2011-12-04 00:31 base-000003.pbm 268 -rw-r--r-- 1 archivista users 271883 2011-12-04 00:31 base-000004.pbm
pdfimages
Mit pdfimages
extrahieren wir die in der PDF-Datei enthaltenen Bilder:
pdfimages archivistavm-linuxday2011.pdf ./extract archivista@archivista:~/data/kvm2$ ls -ls ./extract-00* 740 -rw-r--r-- 1 archivista users 754920 2011-12-04 00:35 ./extract-000.ppm 5936 -rw-r--r-- 1 archivista users 6075844 2011-12-04 00:35 ./extract-001.ppm 6748 -rw-r--r-- 1 archivista users 6908177 2011-12-04 00:35 ./extract-002.ppm 9356 -rw-r--r-- 1 archivista users 9579941 2011-12-04 00:36 ./extract-003.ppm 10928 -rw-r--r-- 1 archivista users 11190161 2011-12-04 00:36 ./extract-004.ppm
Wer Wert auf geringe Dateigrössen legt, der wird die Option -j
verwenden, dabei werden anstelle der PPM-Bilder komprimierte JPEG-Dateien erstellt.
pdftops und psutils
Mit dem Paket psutils
können wir Postscript-Dateien bearbeiten. Damit dies geht, können wir diese zunächst mit pdftops
ins Postscript-Format umwandeln. pdftops
ist dabei pdf2ps (das an sich im psutils-Paket enthalten ist) vorzuziehen. Die Umwandlung mit pdftops
arbeitet schneller und die erzeugten Postscript-Dateien sind deutlich kleiner. Mein Favorit bei den psutils
ist psnup
. Mit diesem Utility können mehrere Seiten auf einer physikalischen Seite dargestellt werden. Auch dazu ein Beispiel:
pdftops archivistavm-linuxday2011.pdf psnup -n 4 archivistavm-linuxday2011.ps buch.ps ps2pdf buch.ps ls -ls buch.* 6704 -rw-r--r-- 1 archivista users 6848648 2011-12-04 00:58 buch.pdf 4856 -rw-r--r-- 1 archivista users 4956760 2011-12-04 00:57 buch.ps
Bei der Rückumwandlung kommen einigermassen schlanke PDF-Dateien heraus. -n 4
bedeutet, dass vier Seiten auf eine Seite verkleinert werden sollen.
So, und falls nun jemand weitere Lieblings-Tools für das Bearbeiten von PDF-Dateien hat, möge er dies mit einem Kommentar an dieser Stelle mitteilen.