Ignorierien der robots.txt-Datei unter wget

Das Downloadwerkzeug wget beachtet beim Download einer URL die robots.txt – damit werden bestimmte Dateien vom Download ausgeschlossen wenn dies der Webmaster wünscht:

wget -r --random-wait --timestamping http://example.org

Unter Umständen ist es aber manchmal notwendig die robots.txt-Datei zu ignorieren. Der dazu benötigte Parameter lautet -e robots=off. Damit würde obige Zeile wie folgt aussehen:

wget -e robots=off -r --random-wait --timestamping http://example.org

Damit lädt wget Dateien unabhängig von den Regeln der robots.txt herunter.