Webseiten herunterladen mit GNU wget

`-Y on/off' `--proxy=on/off'

Diese Einstellung aktiviert oder deaktiviert die Proxy-Unterstützung. Hierbei wird über eine Umgebungsvariable auf den im System eingestellten Proxy zurückgegriffen. Über die Optionen --proxy-user=user und --proxy-passwd=password kann zudem noch ein Benutzername sowie ein Kennwort für den Proxyzugriff angegeben werden. Im untenstehenden Beispiel kommen außerdem die Optionen 'Rekursiv' sowie 'Level' zum Einsatz.

Beispiel: wget -r -l1 -proxy=on --proxy-user=tux --proxy-passwd=geheim http://www.meineseite.de/index.html

`-Q quota' `--quota=quota'

Mit der Quota-Option ist es möglich, ein Downloadlimit zu setzen. Diese Begrenzung bezieht sich auf die angeforderten Datenmengen. Standardmäßig wird das Downloadlimit in Byte angegeben. Jedoch ist es auch möglich, die Datenmenge in Kilobyte oder Megabyte anzugeben. Hierzu muss hinter den angegebenen Wert 'k' bzw. 'm' gesetzt werden. Wird Quota auf '0' oder 'inf' gesetzt, so kann eine unbegrenzte Datenmenge heruntergeladen werden. Wird die Option -quota nicht angegeben, so ist die Downloadmenge ebenfalls unbeschränkt.

Lädt man eine einzelne Datei herunter, so tritt die Quota-Option nicht in Kraft, da sonst die Datei nur unvollständig heruntergeladen werden würde, was wenig Sinn macht.

Beispiel: wget -r -l1 -Q5m http://www.meineseite.de/vieledaten/index.html

`-N' `--timestamping'

Die Timestamping-Option ist eine der wichtigsten. Diese Option hilft einem bei der Sicherung der entfernten Daten.

Stephan Tijink

tkwget

Besonders sinnvoll ist diese Option, wenn man Seiten in regelmäßigen Abständen sichern will. Wird diese Option beim Download der Daten mit angegeben, so vergleicht wget das Datum jeder Datei, die heruntergeladen wird. Existiert bereits eine lokale Kopie, deren Datum dasselbe ist, wie von der Datei auf dem Server, so wird diese Datei beim Download ausgelassen, da keine Änderung an der Datei vorgenommen wurde. Ist die Datei auf dem Server aktueller als die bereits vorhandene Datei auf dem heimischen PC, so wird diese Datei heruntergeladen, da neueren Datums. Auf diese Art werden nur Daten heruntergeladen, die Änderungen erfahren haben seit dem letzten Datenabgleich. Auf diese Weise wird Downloadzeit und Datenvolumen eingespart, was bei größeren Webseiten klar von Vorteil sein kann.

Beispiel: wget -r -l1 -N http://www.meineseite.de/

Verzeichnis-Optionen

Durch die Angabe der folgenden Verzeichnis-Optionen kann man spezifizieren, wo die angeforderten Daten abgelegt werden sollen, bzw. inwiefern die Verzeichnisstruktur der entfernten Internetseite übernommen werden soll.

`-nd' `--no-directories'

Diese Option gibt an, dass die Verzeichnisstruktur der entfernten Internetseite nicht übernommen werden soll. Alle Daten werden in das aktuelle lokale Verzeichnis kopiert. Hier ist Vorsicht geboten. Existieren zwei Dateien mit gleichem Namen, jedoch in verschiedenen Verzeichnissen, so wird die erste Datei lokal überschrieben, da eine zweite Datei mit gleichem Namen angefordert wird.

Beispiel: wget -r -l1 -nd http://www.meineseite.de/

`-x' `--force-directories'

Diese Option stellt das Gegenstück zu der Option '-nd' dar. Die Verzeichnisstruktur der angeforderten Seite wird komplett übernommen.

Beispiel: wget -r -l1 -x http://www.meineseite.de/

`-nH' `--no-host-directories'

Gibt man diese Option beim Download von Webseiten an, so wird die Verzeichnisstruktur vom Server übernommen, jedoch wird der Hostname nicht mit berücksichtigt. Anstatt http://www.meineseite.de/heimat/garten erhält man heimat/garten.

Beispiel: wget -r -l1 -nH http://www.meineseite.de/heimat/garten/

Einschränkende Optionen

Hiermit sind die Optionen gemeint, mit denen man die zu ladenden Daten noch weiter spezifizieren kann. Will man zum Beispiel nur Bilder von einer Seite herunterladen, so sind die folgenden Optionen sehr sinnvoll.

`-A <liste>--accept <liste>'

Mit dieser Angabe ist es möglich, beim Download nur bestimmte Dateierweiterungen zuzulassen. Dies ist sehr von Nutzen, wenn man zum Beispiel nur Bilder von einer Seite herunterladen will. Angegeben wird nur der Dateityp selber, zum Beispiel jpg oder txt. Wildcards sowie die Angabe des üblicherweise vorhandenen Trennpunkts sind nicht zulässig. Die Angabe von mehreren Dateierweiterungen ist möglich. Diese müssen dann durch ein Komma separiert werden.

Beispiel: wget -r -l1 -A jpg,gif http://www.meineseite.de/mediagallerie/

`-R <liste> --reject <liste>'

Diese Option stellt das genaue Gegenstück zur oben angegebenen Option '-A' dar. Alle angegeben Dateierweiterungen werden nicht beim Download berücksichtigt. Dies ist zum Beispiel sinnvoll, wenn man z.B. auf den Download großer Videodaten oder ähnlichem verzichten will.

Beispiel: wget -r -l1 -R avi,mpg http://www.meineseite.de/mediagallerie/

`-L' `--relative'

Bei der Angabe der Option '-L' folgt wget nur relativen Links. Lautet ein Link in der HTML-Datei 'http://www.meineseite.de/hobbys/garten.html', so wird dieser Verweis beim rekursiven Laden von Daten nicht berücksichtigt. Lautet der Verweis hingegen '/hobbys/garten.html', so wird er beim Download berücksichtigt. Diese Option ist sehr nützlich, wenn man eine Homepage herunterladen will, jedoch die Daten externer Seitenverweise nicht mit laden will.

Beispiel: wget -r -l5 -L http://www.meineseite.de/