Wenn man eine nicht mehr verfügbare Webseite aufrufen möchte oder einen älteren Stand einer Webseite benötigt ist die Wayback Machine vom Internet Archive stets zur Stelle. Das Internet Archive ist eine gemeinnützige Organisation, welche seit 2007 offiziell als Bibliothek vom US-amerikanischen Bundesstaat Kalifornien anerkannt ist.
archive.org/web/
Manchmal benötigt man einen Snapshot einer bestimmten Version der Webseite und möchte diesen nicht umständlich über das Webinterface der Wayback Machine herunterladen. In diesem Fall kann sich des Tools wayback-machine-downloader bedienen. Dieses Tool, welches in Ruby geschrieben ist, kann einfach über den Ruby-Paketmanager installiert werden:
gem install wayback_machine_downloader
Anschließend kann das Tool genutzt werden:
wayback_machine_downloader http://example.com
Damit wird der letzte gesammelte Snapshot heruntergeladen. Daneben existieren Option wie die –to Optionen um den Snapshot nur aus einem bestimmten Zeitraum zu holen. Da ich mehrere Snapshots einer Seite benötigte habe ich das ganze in ein Skript gegossen:
#sh
for i in `seq 127 1`;
do
# Define date postfix
DATE_POSTFIX="28120000";
# Linux (Linux date)
#DATE=`date +%Y%m -d "$i month ago"`
# macOS (BSD date)
DATE=`date -j -v-${i}m +%Y%m`
# Add date postfix
DATE=$DATE$DATE_POSTFIX
# Create folder for snapshot
mkdir $DATE
cd $DATE
# Download snapshot
wayback_machine_downloader http://example.com --to $DATE
# Leave folder
cd ..
done
In diesem Skript wird durch das Skript 127 Monate in die Vergangenheit gereist und ein Snapshot der Webseite heruntergeladen. Das ganze läuft so lange durch bis das Ende der Schleife erreicht ist. So erhält man pro Monat einen Snapshot. Der Wayback Machine Downloader, dessen Quelltext auf GitHub zu finden ist, ist unter der MIT Lizenz lizenziert und damit freie Software.