Webseiten herunterladen mit GNU wget
`-N' `--timestamping'
Die Timestamping-Option ist eine der wichtigsten. Diese Option hilft einem bei der Sicherung der entfernten Daten.
Besonders sinnvoll ist diese Option, wenn man Seiten in regelmäßigen Abständen sichern will. Wird diese Option beim Download der Daten mit angegeben, so vergleicht wget das Datum jeder Datei, die heruntergeladen wird. Existiert bereits eine lokale Kopie, deren Datum dasselbe ist, wie von der Datei auf dem Server, so wird diese Datei beim Download ausgelassen, da keine Änderung an der Datei vorgenommen wurde. Ist die Datei auf dem Server aktueller als die bereits vorhandene Datei auf dem heimischen PC, so wird diese Datei heruntergeladen, da neueren Datums. Auf diese Art werden nur Daten heruntergeladen, die Änderungen erfahren haben seit dem letzten Datenabgleich. Auf diese Weise wird Downloadzeit und Datenvolumen eingespart, was bei größeren Webseiten klar von Vorteil sein kann.
Beispiel: wget -r -l1 -N http://www.meineseite.de/
Verzeichnis-Optionen
Durch die Angabe der folgenden Verzeichnis-Optionen kann man spezifizieren, wo die angeforderten Daten abgelegt werden sollen, bzw. inwiefern die Verzeichnisstruktur der entfernten Internetseite übernommen werden soll.
`-nd' `--no-directories'
Diese Option gibt an, dass die Verzeichnisstruktur der entfernten Internetseite nicht übernommen werden soll. Alle Daten werden in das aktuelle lokale Verzeichnis kopiert. Hier ist Vorsicht geboten. Existieren zwei Dateien mit gleichem Namen, jedoch in verschiedenen Verzeichnissen, so wird die erste Datei lokal überschrieben, da eine zweite Datei mit gleichem Namen angefordert wird.
Beispiel: wget -r -l1 -nd http://www.meineseite.de/
`-x' `--force-directories'
Diese Option stellt das Gegenstück zu der Option '-nd' dar. Die Verzeichnisstruktur der angeforderten Seite wird komplett übernommen.
Beispiel: wget -r -l1 -x http://www.meineseite.de/
`-nH' `--no-host-directories'
Gibt man diese Option beim Download von Webseiten an, so wird die Verzeichnisstruktur vom Server übernommen, jedoch wird der Hostname nicht mit berücksichtigt. Anstatt http://www.meineseite.de/heimat/garten erhält man heimat/garten.
Beispiel: wget -r -l1 -nH http://www.meineseite.de/heimat/garten/
Einschränkende Optionen
Hiermit sind die Optionen gemeint, mit denen man die zu ladenden Daten noch weiter spezifizieren kann. Will man zum Beispiel nur Bilder von einer Seite herunterladen, so sind die folgenden Optionen sehr sinnvoll.
`-A <liste>--accept <liste>'
Mit dieser Angabe ist es möglich, beim Download nur bestimmte Dateierweiterungen zuzulassen. Dies ist sehr von Nutzen, wenn man zum Beispiel nur Bilder von einer Seite herunterladen will. Angegeben wird nur der Dateityp selber, zum Beispiel jpg oder txt. Wildcards sowie die Angabe des üblicherweise vorhandenen Trennpunkts sind nicht zulässig. Die Angabe von mehreren Dateierweiterungen ist möglich. Diese müssen dann durch ein Komma separiert werden.
Beispiel: wget -r -l1 -A jpg,gif http://www.meineseite.de/mediagallerie/
`-R <liste> --reject <liste>'
Diese Option stellt das genaue Gegenstück zur oben angegebenen Option '-A' dar. Alle angegeben Dateierweiterungen werden nicht beim Download berücksichtigt. Dies ist zum Beispiel sinnvoll, wenn man z.B. auf den Download großer Videodaten oder ähnlichem verzichten will.
Beispiel: wget -r -l1 -R avi,mpg http://www.meineseite.de/mediagallerie/
`-L' `--relative'
Bei der Angabe der Option '-L' folgt wget nur relativen Links. Lautet ein Link in der HTML-Datei 'http://www.meineseite.de/hobbys/garten.html', so wird dieser Verweis beim rekursiven Laden von Daten nicht berücksichtigt. Lautet der Verweis hingegen '/hobbys/garten.html', so wird er beim Download berücksichtigt. Diese Option ist sehr nützlich, wenn man eine Homepage herunterladen will, jedoch die Daten externer Seitenverweise nicht mit laden will.
Beispiel: wget -r -l5 -L http://www.meineseite.de/
Frontends für wget
Wer die Funktionen von wget nutzen will, jedoch nicht auf den Komfort einer grafischen Benutzeroberfläche verzichten möchte, für den gibt es eine Reihe von Frontends, die auf wget zurückgreifen. Die Liste der vorgestellten Frontends ist sicherlich nicht komplett, jedoch habe ich mich bemüht, einige interessante Projekte herauszupicken.
Kwebget
kwebget ist ein Frontend für wget, welches speziell für den Einsatz mit KDE entwickelt wurde. Der Autor dieser Software bietet sowohl eine Version für KDE 1.x als auch für KDE 2 an. Das Programm kann sowohl zum Download einzelner Dateien als auch zum Download kompletter Webseiten benutzt werden, welche sich nachher offline betrachten lassen. Kwebget steht unter der GPL.
Einen Screenshot ansehen
Downloadadresse: http://www.kpage.de/de/
gtransfermanager
Dieses Frontend für wget basiert auf der GTK-Bibliothek und stellt den Download von Dateien zur Verfügung. Die Dateien können nach Bedarf auch stückweise heruntergeladenwerden, was bei Verwendung von Wählverbindungen sehr nützlich sein kann. Neben dem normalen Transfermanager (gtm) existiert auch noch ein Applet, welches in das GNOME-Panel eingebunden werden kann. Das Applet kann per Drag und Drop Dateien aus Netscape, gFTP oder gmc aufnehmen, welche dann heruntergeladen werden.
Einen Screenshot ansehen
Downloadadresse: http://gtm.sourceforge.net/
tkwget
Dieses Programm basiert auf Tcl/Tk und benutzt die TclX-Erweiterung. Laut Autor werden alle Funktionen von wget komplett unterstützt, was das Programm sehr mächtig macht. Auch dieses Programm steht unter der GPL.
Einen Screenshot ansehen
Downloadadresse: http://www.mediacom.it/~sna/linux.html
Webmin-Modul für wget
Für das Systemverwaltungs-Programm Webmin, welches HTML-basiert arbeitet, gibt es ein Modul, das via wget Downloads handhaben kann. Vorteil dieser Lösung ist, dass es webbasiert und somit plattformunabhängig ist. So kann man seinen heimischen Server über das HTML-Frontend anweisen, welche Daten heruntergeladen werden sollen. Das Webmin-Modul ist unter der GPL freigegeben.
Downloadadresse: http://www.niemueller.de/webmin/modules/download/


