Webseiten per wget herunterladen

Manchmal möchte man eine Webseite oder mehrere Verzeichnisse einer solchen herunterladen. Dank “wget” geht das sehr unproblematisch:

wget -r --random-wait --timestamping <URL>

Möchte man das ganze nur relativ zur Start-URL downloaden so gibt man noch den Parameter -L an:

wget -r -L --random-wait --timestamping <URL>

Aussehen könnte das ganze dabei zum Beispiel so:

wget -r --random-wait --timestamping http://dds.cr.usgs.gov/srtm/version2_1/SRTM3/

In diesem Fall werden die SRTM Daten der NASA heruntergeladen. Dank des Attributes “–timestamping” kann ein unterbrochener Download später auch wieder aufgenommen werden. Der Parameter “–random-wait” sorgt dafür das die Zeit zwischen den Downloads variiert und somit das Problem minimiert wird das bestimmte Server den Downloadvorgang unterbrechen.


Dir gefällt dieser Beitrag und du möchtest helfen? Werde Mitglied und unterstütze mich.

1 Kommentar » Schreibe einen Kommentar

  1. Hi,

    in meiner bashrc hab ich die mini-Funktion hier:

    downloadPage () {
    URL=${1:?missing url}
    wget -r -k -E $URL
    }
    -k sorgt dafür, dass die Verlinkungen relativ ersetzt werden – spricht, das läßt sich auch ohne webserver durchklicken. -E speichert alles, was nen html header hat, auch als .html

    Die 2 von dir angegebenen Parameter hab ich gleich noch mit eingefügt.

    Grüße

    Basti

Schreibe einen Kommentar zu Basti Antworten abbrechen

Pflichtfelder sind mit * markiert.