Webseiten per wget herunterladen · seeseekey.net

Webseiten per wget herunterladen

Manchmal möchte man eine Webseite oder mehrere Verzeichnisse einer solchen herunterladen. Dank „wget“ geht das sehr unproblematisch:

wget -r --random-wait --timestamping <URL>

Möchte man das ganze nur relativ zur Start-URL downloaden so gibt man noch den Parameter -L an:

wget -r -L --random-wait --timestamping <URL>

Aussehen könnte das ganze dabei zum Beispiel so:

wget -r --random-wait --timestamping http://dds.cr.usgs.gov/srtm/version2_1/SRTM3/

In diesem Fall werden die SRTM Daten der NASA heruntergeladen. Dank des Attributes „–timestamping“ kann ein unterbrochener Download später auch wieder aufgenommen werden. Der Parameter „–random-wait“ sorgt dafür das die Zeit zwischen den Downloads variiert und somit das Problem minimiert wird das bestimmte Server den Downloadvorgang unterbrechen.

1 Kommentare » Schreibe einen Kommentar

- Basti
- Antworten
- 01.09.12 @ 10:24
Hi,

in meiner bashrc hab ich die mini-Funktion hier:

downloadPage () {
URL=${1:?missing url}
wget -r -k -E $URL
}
-k sorgt dafür, dass die Verlinkungen relativ ersetzt werden – spricht, das läßt sich auch ohne webserver durchklicken. -E speichert alles, was nen html header hat, auch als .html

Die 2 von dir angegebenen Parameter hab ich gleich noch mit eingefügt.

Grüße

Basti

Schreibe einen Kommentar Antworten abbrechen