Webseiten per wget herunterladen

Manchmal möchte man eine Webseite oder mehrere Verzeichnisse einer solchen herunterladen. Dank „wget“ geht das sehr unproblematisch:

wget -r --random-wait --timestamping <URL>

Möchte man das ganze nur relativ zur Start-URL downloaden so gibt man noch den Parameter -L an:

wget -r -L --random-wait --timestamping <URL>

Aussehen könnte das ganze dabei zum Beispiel so:

wget -r --random-wait --timestamping http://dds.cr.usgs.gov/srtm/version2_1/SRTM3/

In diesem Fall werden die SRTM Daten der NASA heruntergeladen. Dank des Attributes „–timestamping“ kann ein unterbrochener Download später auch wieder aufgenommen werden. Der Parameter „–random-wait“ sorgt dafür das die Zeit zwischen den Downloads variiert und somit das Problem minimiert wird das bestimmte Server den Downloadvorgang unterbrechen.

1 Kommentar » Schreibe einen Kommentar

  1. Hi,

    in meiner bashrc hab ich die mini-Funktion hier:

    downloadPage () {
    URL=${1:?missing url}
    wget -r -k -E $URL
    }
    -k sorgt dafür, dass die Verlinkungen relativ ersetzt werden – spricht, das läßt sich auch ohne webserver durchklicken. -E speichert alles, was nen html header hat, auch als .html

    Die 2 von dir angegebenen Parameter hab ich gleich noch mit eingefügt.

    Grüße

    Basti

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.