Ignorierien der robots.txt-Datei unter wget

Das Downloadwerkzeug wget beachtet beim Download einer URL die robots.txt – damit werden bestimmte Dateien vom Download ausgeschlossen wenn dies der Webmaster wünscht:

wget -r --random-wait --timestamping http://example.org

Unter Umständen ist es aber manchmal notwendig die robots.txt-Datei zu ignorieren. Der dazu benötigte Parameter lautet -e robots=off. Damit würde obige Zeile wie folgt aussehen:

wget -e robots=off -r --random-wait --timestamping http://example.org

Damit lädt wget Dateien unabhängig von den Regeln der robots.txt herunter.


Dir gefällt dieser Beitrag und du möchtest helfen? Werde Mitglied und unterstütze mich.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.