seeseekey.net - Invictus Deus Ex Machina

Wenn man eine nicht mehr verfügbare Webseite aufrufen möchte oder einen älteren Stand einer Webseite benötigt ist die Wayback Machine vom Internet Archive stets zur Stelle. Das Internet Archive ist eine gemeinnützige Organisation, welche seit 2007 offiziell als Bibliothek vom US-amerikanischen Bundesstaat Kalifornien anerkannt ist.

archive.org/web/

Manchmal benötigt man einen Snapshot einer bestimmten Version der Webseite und möchte diesen nicht umständlich über das Webinterface der Wayback Machine herunterladen. In diesem Fall kann sich des Tools wayback-machine-downloader bedienen. Dieses Tool, welches in Ruby geschrieben ist, kann einfach über den Ruby-Paketmanager installiert werden:

gem install wayback_machine_downloader

Anschließend kann das Tool genutzt werden:

wayback_machine_downloader http://example.com

Damit wird der letzte gesammelte Snapshot heruntergeladen. Daneben existieren Option wie die –to Optionen um den Snapshot nur aus einem bestimmten Zeitraum zu holen. Da ich mehrere Snapshots einer Seite benötigte habe ich das ganze in ein Skript gegossen:

#sh

for i in `seq 127 1`;
  do
    # Define date postfix
    DATE_POSTFIX="28120000";
			
    # Linux (Linux date)
    #DATE=`date +%Y%m -d "$i month ago"`    
				
    # macOS (BSD date) 
    DATE=`date -j -v-${i}m +%Y%m` 
    
    # Add date postfix
    DATE=$DATE$DATE_POSTFIX
				
    # Create folder for snapshot
    mkdir $DATE
    cd $DATE

    # Download snapshot
    wayback_machine_downloader http://example.com --to $DATE

    # Leave folder
    cd ..
  done  

In diesem Skript wird durch das Skript 127 Monate in die Vergangenheit gereist und ein Snapshot der Webseite heruntergeladen. Das ganze läuft so lange durch bis das Ende der Schleife erreicht ist. So erhält man pro Monat einen Snapshot. Der Wayback Machine Downloader, dessen Quelltext auf GitHub zu finden ist, ist unter der MIT Lizenz lizenziert und damit freie Software.

Das Internet Archive betreibt mit der Wayback Machine ein Archiv des Web. In diesem Archiv kann man sich frühere Version einer Webseite ansehen. Problematisch wird es wenn man einen Snapshot einer bestimmten Version einer Webseite benötigt. Bei größeren Webseiten ist der manuelle Download zeitaufwending. Mit dem Wayback Machine Downloader – einem in Ruby geschriebenen Tool – ist es möglich einen solchen Snapshot automatisiert herunterzuladen. Dazu muss das Tool im ersten Schritt über das Terminal installiert werden:

gem install wayback_machine_downloader

Lauffähig ist der Downloader dabei unter Linux, Mac OS X und Windows. Nach der Installation kann ein Snapshot mittels:

wayback_machine_downloader http://example.com --timestamp 20060716231334

heruntergeladen werden. Je nach Größe der Webseite kann der Vorgang dabei einige Stunden dauern. Der Quelltext ist auf GitHub zu finden. Lizenziert ist der Wayback Machine Downloader unter der MIT-Lizenz und damit freie Software.

Es gibt weltweit viele hunderte, wenn nicht tausende Akzente. An der George Mason University hat man diese im Speech Accent Archive zusammengetragen. Dabei trägt jeder Sprecher immer wieder den gleichen Text vor.

accent.gmu.edu

accent.gmu.edu

Zu finden ist das Archiv unter accent.gmu.edu. Auf der Seite kann dabei nach Sprache, Region oder Phonetik gesucht werden. Lizenziert ist das Archiv unter der Creative Commons CC-BY-NC-SA in der Version 2.0.

In diesem Blog sind mit der Zeit einige Artikel zusammengekommen. Das Problem an alten Artikeln ist das man sie eher selten zu Gesicht bekommt. Glücklicherweise gibt es für jede Lösung ein Problem und so habe ich mir einmal das WordPress Plugin „Tweet old post“ angeschaut.

Die Einstellungsseite des Plugins

Mit diesem Plugin kann man alte Beiträge auf Twitter neu ankündigen. Dabei kann man auch einstellen wie alt die Beiträge sein dürfen oder auch bestimmte Beiträge ganz ausschließen. Auch die Häufigkeit der Ankündigungen lässt sich ohne Probleme einstellen. Alles in allem eine schöne Sache wenn man auch als Autor seine alten Beiträge angezeigt bekommt. Die offizielle Seite des Autors findet man unter http://www.ajaymatharu.com/.