Login
Newsletter
Werbung

Do, 19. Oktober 2000, 00:00

Webseiten herunterladen mit GNU wget

Mit wget ist es möglich, eine Homepage oder nur Teile davon auf den lokalen Computer herunterzuladen.

Vorwort

Wer kennt das nicht. Es gibt da eine interessante Webseite im Internet, die man gerne auch offline lesen möchte. Des kann zum Beispiel eine umfangreiche Dokumentation sein, ein Teil einer großen Homepage, oder vielleicht nur die Bilder von einer ausgewählten Seite. Genau zu diesem Zweck gibt es das Programm wget. Mit wget ist es möglich, eine Homepage oder nur Teile davon auf den lokalen Computer herunterzuladen. Die Anwendung bietet eine Unzahl von nützlichen Optionen, auf die ich im folgenden eingehen werde. wget ist ein Kommandozeilen-Programm, jedoch gibt es auch eine Reihe von Frontends, die ich ebenfalls kurz vorstellen möchte. Diese Dokumentation behandelt nicht alle Optionen des Programms, da dies den Rahmen sprengen würde. Jedoch will ich auf die wichtigsten und interessantesten Funktionen der Software eingehen. Wer Ergänzungen oder Verbesserungs-Vorschläge zu diesem Artikel hat, der kann mir diese per Email zukommen lassen. Die komplette, englischsprachige Dokumentation von wget ist auf der Homepage des Projektes zu finden. Ein Link ist weiter unten in diesem Dokument angegeben.

Download und Installation der Software

Kwebget

Stephan Tijink

Kwebget

GNU wget kann von diesem Server heruntergeladen werden. Von diesem Server sind ausschließlich die Programm-Sourcen zu bekommen, so daß das Programm anschließend noch kompiliert werden muß. Viele Distributoren wie Red Hat, Debian oder SuSE liefern das Programm zudem als vorkompiliertes Paket mit ihrer jeweils aktuellen Distribution mit. Oft bieten die Distributoren Pakete von Software auf ihren jeweiligen FTP-Servern an. Wie man das Programm im Quellcode sowie als vorkompiliertes Paket installieren kann, das ist in dieser ausführlichen Dokumentation nachzulesen.

Programm-Syntax

Das Programm wird wie folgt aufgerufen:

wget [optionen] [url]

Bei der Angabe der Optionen ist auf Goß- und Kleinschreibung zu achten.

Download-Optionen

wget bietet eine Reihe von Optionen für den Download von Internetseiten, die ich im folgenden erläutern will.

`-r' `--recursive'

Diese Option erlaubt das rekursive Herunterladen. Dies ist eigentlich die interessanteste Option, da diese notwendig ist, wenn man mehr als nur die Indexdatei herunterladen will, was ja in den meisten Fällen Sinn macht. Die Option wird meistens zusammen mit der Option '-l' verwendet. Beim rekursiven Download von Webseiten folgt wget allen Links, die in einer HTML-Datei angegeben sind, bzw. es werden auch Dateien wie Bilder heruntergeladen, die für die Darstellung der Webseite relevant sind.

Beispiel: wget -r http://www.meineseite.de/index.html

'-l', '--level'

Mit der Option '-l' gibt man an, wie tief der rekursive Download verzweigen darf.

gtransfermanager

Stephan Tijink

gtransfermanager

Wenn wget einem einem Link zu einer weiteren Webseite folgt, dann kann es passieren, daß diese zweite Webseite wieder einen Link zu einer weiteren Internetseite enthält. In diesem Fall würde wget ebenfalls diesem Link folgen. Wenn man dies weiterspinnt, dann könnte wget so rein theoretisch den Inhalt des gesamten Internets herunterladen. Um dies zu vermeiden, gibt es die Option '-i', welche die Tiefe der Rekursion angibt. Als Standard ist "5" vorgesehen. Will man zum Beispiel nur eine einzige Webseite mit dazugehörigen Dateien herunterladen, so ist eine Rekursionstiefe von 1 sinnvoll. Gibt man 0 als Rekursionstiefe an, so gibt es keine Beschränkung, und man hat, wenn man genug Festplattenplatz zur Verfügung hat, den gesamten Inhalt des Internets geladen ;-)

Beispiel: wget -r -l1 http://www.meineseite.de/index.html

`-c' `--continue'

Setzt einen unterbrochenen Download fort. Dies ist vor allem bei großen Dateien sinnvoll. Hierbei spielt es keine Rolle, ob das Dateifragment mit wget oder einem anderen Programm heruntergeladen wurde.

Beispiel: wget -r -l1 -c http://www.meineseite.de/index.html

`-k' `--convert-links'

Beim Download einer Internetseite werden alle darin angegebenen absoluten Links in relative Links umgewandelt. Beispielsweise wird 'http://www.meineseite.de/hobbys/garten.html' in 'hobbys/garten.html' umgewandelt. Diese Option ist vor allem dann sehr nützlich, wenn man eine Online-Dokumentation herunterladen will, um diese offline zu lesen.

Beispiel: wget -r -l1 -k http://www.meineseite.de/kochkurs/index.html

Kommentare (Insgesamt: 0 )
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung