Wget Seiten spiegeln

Locked
Message
Author
alx
Posts: 64
Joined: 20. Jan 2000 21:37
Contact:

Wget Seiten spiegeln

#1 Post by alx »

Ich habe ein Problem beim spiegeln von Internetseiten. Mein kleines Skript soll über einen Cronjob ausgeführt werden und jeden Tag den download der in einer Datei angegebenen Seiten fortsetzte. Das Skript ist soweit fertig. Nur ich habe ein Problem, wenn ich Wget mit der Option "-k" ziehen lasse, damit ich auf dem lokalen Server die Links richtig habe, läuft das Skript beim zweiten Aufrufen auf einen Fehler, da es sich an den konvertierten (auf der lokalen Platte liegenden) HTML Seiten entlangangelt. Gebe ich Wget den Parameter -nc mit werden nur neue Dateien gezogen, da ich ja nicht jeden Tag neu beginnen möchte die Seiten zu laden. Im Moment läuft wget ohne -k --FRAGE--> Gibt es eine Möglichkeit nur alle html und htm Seiten neu aus dem Netz zu ziehen? Aber dann findet er die lokalen Seiten wahrscheinlich nicht mehr und der Hand beißt sich in den Schwanz. / Es gibt außerdem die Option -N für time-stamping wie verhält sich diese Option mit -k ? werden dann alle modifizierten HTML Dateien neu gezogen oder gibt das noch mehr CHAOS???? <img src="http://www.pl-forum.de/UltraBoard/Images/TooHappy.gif" border="0" align="middle">

alx
Posts: 64
Joined: 20. Jan 2000 21:37
Contact:

Re: Wget Seiten spiegeln

#2 Post by alx »

Bei der Kombination von -N und -k geht alles drunter und drüber und die geladenen Daten sind so durcheinander, dass ich sie nicht mehr retten kann (schachtelt die Unterverzeichnisse noch einmal etc...)
Ich häng mal mein Skript an die mail vieleicht kann mir ja jemand einen Tipp geben
++++++++++++++++++++++++++++++
infile=/home/testix/down/seitenliste.txt
#

while read adresse tiefe
do
## wget Aufruf:
## -r =rekursive
## -l =Angabe der Tiefe
## -nc =existierende Dateien werden nicht noch einmal geladen
## -a =an logfile anhängen
## -q =quiet -nv =ausgabe wichtiger Infos
## -t =Anzahl für Ladeversuche
## -k =konvertiert non-relative Links in relatives
## -N =Checken des Datumstempels (Nur neue oder Neuere Daten herunterladen)
## -A =nur bestimmte Datentypen werden geladen
## -Q =max downloadmenge (1m = 1MB)
## --ignore-lenght =bei CGI Programmen gibt es sonst Probleme
## -P =Dir in welches die Downloads geschrieben werden

if [ $adresse != '#' ]
then
echo "Starte Download $adresse"

#wget -r -l $tiefe -nv -nc -t2 -k -A html,htm,gif,jpg,txt,css --ignore-length -P /home/httpd/html/down/ -Q 1m -a wget_logfile --proxy-user=Wget --proxy-passw=
xxxx(hier nat. richtige Passwd) $adresse


wget -r -l $tiefe -N -k -nv -t2 -A html,htm,gif,jpg,txt,css --ignore-length -P /home/httpd/html/down/ -Q 100k --proxy-user=Wget --proxy-passwd=xxxx(hier nat. richtige Passwd) $adres
se
else
echo "Skipping $tiefe" f
fi #

done < $infile

++++++++++++++++++++++

Der auskommentierte Ausdruck ist der richtige der andere haut mir die Daten durcheinander!

thanxx AlX

Locked