seeseekey.net - Invictus Deus Ex Machina

Wenn man eine nicht mehr verfügbare Webseite aufrufen möchte oder einen älteren Stand einer Webseite benötigt ist die Wayback Machine vom Internet Archive stets zur Stelle. Das Internet Archive ist eine gemeinnützige Organisation, welche seit 2007 offiziell als Bibliothek vom US-amerikanischen Bundesstaat Kalifornien anerkannt ist.

archive.org/web/

Manchmal benötigt man einen Snapshot einer bestimmten Version der Webseite und möchte diesen nicht umständlich über das Webinterface der Wayback Machine herunterladen. In diesem Fall kann sich des Tools wayback-machine-downloader bedienen. Dieses Tool, welches in Ruby geschrieben ist, kann einfach über den Ruby-Paketmanager installiert werden:

gem install wayback_machine_downloader

Anschließend kann das Tool genutzt werden:

wayback_machine_downloader http://example.com

Damit wird der letzte gesammelte Snapshot heruntergeladen. Daneben existieren Option wie die –to Optionen um den Snapshot nur aus einem bestimmten Zeitraum zu holen. Da ich mehrere Snapshots einer Seite benötigte habe ich das ganze in ein Skript gegossen:

#sh

for i in `seq 127 1`;
  do
    # Define date postfix
    DATE_POSTFIX="28120000";
			
    # Linux (Linux date)
    #DATE=`date +%Y%m -d "$i month ago"`    
				
    # macOS (BSD date) 
    DATE=`date -j -v-${i}m +%Y%m` 
    
    # Add date postfix
    DATE=$DATE$DATE_POSTFIX
				
    # Create folder for snapshot
    mkdir $DATE
    cd $DATE

    # Download snapshot
    wayback_machine_downloader http://example.com --to $DATE

    # Leave folder
    cd ..
  done  

In diesem Skript wird durch das Skript 127 Monate in die Vergangenheit gereist und ein Snapshot der Webseite heruntergeladen. Das ganze läuft so lange durch bis das Ende der Schleife erreicht ist. So erhält man pro Monat einen Snapshot. Der Wayback Machine Downloader, dessen Quelltext auf GitHub zu finden ist, ist unter der MIT Lizenz lizenziert und damit freie Software.

Da ich im Moment vermehrt Schach spiele und ich einige Partien nachvollziehen wollte, habe ich ein Partieformular entworfen, welches ich hier ebenfalls zum Download bereitstellen möchte. In einem solchen Formular kann die Schachpartie notiert werden. Daneben finden wichtige Informationen wie die Namen der Spieler und ähnliches Platz auf dem Formular.

Die Rückseite des Formulars

Die Rückseite des Formulars

Während das eigentliche Formular die Vorderseite einnimmt, befindet sich auf der Rückseite, neben Platz für Notizen, eine Erklärung der Schachnotation, so das auch Einsteiger ohne Umschweife mit der Notation des Spieles beginnen können. Dabei wird die gebräuchliche algebraischen Notation mit samt ihrer Schreibweisen erklärt. Die Kürzel der Figuren und Anhänge werden dabei ebenso erklärt.

Vor einigen Tagen wollte ich einige Dateien – konkret ging es dabei um das großartige Hörspiel Raumschiff Eberswalde – von Soundcloud herunterladen.

Das Add-On fügt einen Download-Button hinzu

Das Add-On fügt einen Download-Button hinzu

Nutzt man als Browser Firefox, so kann man sich für diese Aufgabe mit dem Add-On Soundgrab behelfen.

Die App konnte im App Store nicht gefunden werden. 🙁

Dieses Add-On fügt dabei den einzelnen Songs einen Download-Button hinzu. Im Gegensatz zu vielen anderen Lösungen ist das Add-On dabei auch in der Lage ganze Sets herunterzuladen. Der Download selbst ist dann unproblematisch; einfach auf den Button klicken, den Ordner auswählen und schon startet der Download.

Das Internet Archive betreibt mit der Wayback Machine ein Archiv des Web. In diesem Archiv kann man sich frühere Version einer Webseite ansehen. Problematisch wird es wenn man einen Snapshot einer bestimmten Version einer Webseite benötigt. Bei größeren Webseiten ist der manuelle Download zeitaufwending. Mit dem Wayback Machine Downloader – einem in Ruby geschriebenen Tool – ist es möglich einen solchen Snapshot automatisiert herunterzuladen. Dazu muss das Tool im ersten Schritt über das Terminal installiert werden:

gem install wayback_machine_downloader

Lauffähig ist der Downloader dabei unter Linux, Mac OS X und Windows. Nach der Installation kann ein Snapshot mittels:

wayback_machine_downloader http://example.com --timestamp 20060716231334

heruntergeladen werden. Je nach Größe der Webseite kann der Vorgang dabei einige Stunden dauern. Der Quelltext ist auf GitHub zu finden. Lizenziert ist der Wayback Machine Downloader unter der MIT-Lizenz und damit freie Software.

Das Downloadwerkzeug wget beachtet beim Download einer URL die robots.txt – damit werden bestimmte Dateien vom Download ausgeschlossen wenn dies der Webmaster wünscht:

wget -r --random-wait --timestamping http://example.org

Unter Umständen ist es aber manchmal notwendig die robots.txt-Datei zu ignorieren. Der dazu benötigte Parameter lautet -e robots=off. Damit würde obige Zeile wie folgt aussehen:

wget -e robots=off -r --random-wait --timestamping http://example.org

Damit lädt wget Dateien unabhängig von den Regeln der robots.txt herunter.

Mit wget ist der Download einer Datei einfach, da das ganze nur aus dem Befehl und der Datei besteht:

wget http://example.com/datei.zip

Bei cURL braucht es da schon etwas mehr:

curl -O http://example.com/datei.zip

Damit lädt cURL die entsprechende Datei auf die Festplatte, anstatt sie nur anzuzeigen.

Weitere Informationen gibt es unter:
http://en.wikipedia.org/wiki/CURL

Manchmal möchte man eine Webseite oder mehrere Verzeichnisse einer solchen herunterladen. Dank “wget” geht das sehr unproblematisch:

wget -r --random-wait --timestamping <URL>

Möchte man das ganze nur relativ zur Start-URL downloaden so gibt man noch den Parameter -L an:

wget -r -L --random-wait --timestamping <URL>

Aussehen könnte das ganze dabei zum Beispiel so:

wget -r --random-wait --timestamping http://dds.cr.usgs.gov/srtm/version2_1/SRTM3/

In diesem Fall werden die SRTM Daten der NASA heruntergeladen. Dank des Attributes “–timestamping” kann ein unterbrochener Download später auch wieder aufgenommen werden. Der Parameter “–random-wait” sorgt dafür das die Zeit zwischen den Downloads variiert und somit das Problem minimiert wird das bestimmte Server den Downloadvorgang unterbrechen.

Bei Socket.IO handelt es sich um eine Javascript Bibliothek welche eine Socket basierte Kommunikation (unter anderem über Websockets und diverse Fallbacks) ermöglicht. Zu finden ist diese Bibliothek unter http://socket.io. Meist wird diese zusammen mit Node.js benutzt.

Möchte man allerdings nur den Client basierenden Teil benutzen so steht man im ersten Moment vor dem Problem das man keinen offiziellen Download dafür findet, da die Installation nur über “npm” beschrieben wird. Allerdings wird man im Repository unter https://github.com/LearnBoost/socket.io-client/tree/master/dist fündig. Dort kann man sich die fertigen Clientdateien herunterladen und anschließend benutzen.

Weitere Informationen gibt es unter:
http://de.wikipedia.org/wiki/Node.js
http://stackoverflow.com/questions/6587319/how-to-get-socket-io-0-7-client-file
http://stackoverflow.com/questions/6884413/socket-io-the-good-parts-and-the-bad-parts

Jamendo ist eine Plattform die dem einen oder anderen sicherlich bekannt ist. Dort gibt es Creative Commons lizenzierte Musik zum Download. Unter anderem gibt es dort die Gruppe Killing Jazz (http://www.jamendo.com/de/artist/killing.jazz/). Wobei gab ist wahrscheinlich das bessere Wort. Denn die drei Alben:

  • Killing Jazz
  • 2nd Round
  • 12 is Enough

sind dort leider nicht mehr zu finden. Da ich die Musik leider nirgends sonst gefunden habe gibt es das Album 12 is Enough hier nochmal als Download. Wer die anderen beiden Alben hat, der möge sich bitte bei mir melden. Das Album steht dabei unter CC-BY und kann hier heruntergeladen werden.