Wayback Machine Downloader

Das Internet Archive betreibt mit der Wayback Machine ein Archiv des Web. In diesem Archiv kann man sich frühere Version einer Webseite ansehen. Problematisch wird es, wenn man einen Snapshot einer bestimmten Version einer Webseite benötigt. Bei größeren Webseiten ist der manuelle Download zeitaufwendig. Mit dem Wayback Machine Downloader – einem in Ruby geschriebenen Tool – ist es möglich einen solchen Snapshot automatisiert herunterzuladen. Dazu muss das Tool im ersten Schritt über das Terminal installiert werden:

gem install wayback_machine_downloader

Lauffähig ist der Downloader dabei unter Linux, Mac OS X und Windows. Nach der Installation kann ein Snapshot mittels:

wayback_machine_downloader http://example.com -t 20060716231334

heruntergeladen werden. Je nach Größe der Webseite kann der Vorgang dabei einige Stunden dauern. Der Quelltext ist auf GitHub zu finden. Lizenziert ist der Wayback Machine Downloader unter der MIT-Lizenz und damit freie Software.

CPGZ-Datei beim Entpacken einer ZIP-Datei unter Mac OS X

Wenn man unter Mac OS X auf eine ZIP-Datei klickt, so wird diese Datei im Normalfall entpackt. In seltenen Fällen kann es allerdings passieren das z.B. aus der ZIP-Datei daten.zip die Datei daten.zip.cpgz ensteht.

Bei diesen CPGZ-Dateien handelt es sich um sogenannte Copy In, Copy Out-Archive bzw. Compressed cpio-Archive. Technisch betrachtet handelt es sich bei diesem Archiv um eine Datei, in welcher die entsprechenden Daten nacheinander in diese Datei geschrieben wurde. Meist werden diese anschließend noch mittels gzip komprimiert. Damit ähnelt cpio dem bekannteren tar-Format bzw. dessen komprimierter Version, dem tgz-Format. 1988 wurde cpio im POSIX.1-1988-Standard erwähnt; hat aber seit dem stark an Bedeutung eingebüßt. Es wird heutzutage noch beim RPM-Paketsystem und dem initramfs genutzt.

Die einfachste Methode eine solche ZIP-Datei trotzdem zu entpacken ist es eine zusätzliche Applikation wie The Unarchiver zu nutzen.

‎The Unarchiver
Preis: Kostenlos

The Unarchiver kann solche Dateien, meist problemlos entpacken, auch wenn das Mac OS X eigene Archivprogramm an einer solchen Datei scheitert. Hervorgerufen wird dieses Verhalten meist durch defekte oder ungewöhnliche ZIP-Dateien. Die defekten Dateien können durch unvollständige Downloads oder bestimmte Webbrowser entstehen, welche den Dateityp nicht korrekt behandeln. Deshalb kann es manchmal auch helfen, die Datei erneut herunterzuladen. Wenn ein Fehler im Browser vermutet wird, sollte ein anderer Browser für den Download genutzt werden. Eine CPGZ-Datei kann im Terminal mittels:

ditto -x datei.zip.cpgz targetFolder

entpackt werden. Mit der Nutzung des Terminals kann auf externe Applikationen verzichtet werden. Sollte das Problem öfter auftreten, kann es allerdings nicht schaden, The Unarchiver zu installieren und nutzen. The Unarchiver war bis zum Aufkauf durch MacPaw freie Software, deren Quelltext auf BitBucket zu finden ist.

Ignorierien der robots.txt-Datei unter wget

Das Downloadwerkzeug wget beachtet beim Download einer URL die robots.txt – damit werden bestimmte Dateien vom Download ausgeschlossen wenn dies der Webmaster wünscht:

wget -r --random-wait --timestamping http://example.org

Unter Umständen ist es aber manchmal notwendig die robots.txt-Datei zu ignorieren. Der dazu benötigte Parameter lautet -e robots=off. Damit würde obige Zeile wie folgt aussehen:

wget -e robots=off -r --random-wait --timestamping http://example.org

Damit lädt wget Dateien unabhängig von den Regeln der robots.txt herunter.

Webseiten per wget herunterladen

Manchmal möchte man eine Webseite oder mehrere Verzeichnisse einer solchen herunterladen. Dank „wget“ geht das sehr unproblematisch:

wget -r --random-wait --timestamping <URL>

Möchte man das ganze nur relativ zur Start-URL downloaden so gibt man noch den Parameter -L an:

wget -r -L --random-wait --timestamping <URL>

Aussehen könnte das ganze dabei zum Beispiel so:

wget -r --random-wait --timestamping http://dds.cr.usgs.gov/srtm/version2_1/SRTM3/

In diesem Fall werden die SRTM Daten der NASA heruntergeladen. Dank des Attributes „–timestamping“ kann ein unterbrochener Download später auch wieder aufgenommen werden. Der Parameter „–random-wait“ sorgt dafür das die Zeit zwischen den Downloads variiert und somit das Problem minimiert wird das bestimmte Server den Downloadvorgang unterbrechen.