Firefox Add-On zur Archivierung von Webseiten

Zur Archivierung von Webseiten existieren einige Lösungen. So z.B. die Nutzung der Archivierungsmöglichkeiten vom Internet Archive. In meinem Fall wollte ich allerdings, für eine Recherche, mehrere Webseiten lokal archivieren. Natürlich kann die Webseite über Browser eigenen Funktionalitäten gespeichert werden. Auch der Ausdruck bzw. die Generierung eines PDFs aus dem Ausdruck ist möglich. Wesentlich einfacher funktioniert die Archivierung von Webseiten mit dem Firefox Add-On SingleFile.

SingleFile
Price: Free

Mit diesem Add-On ist es möglich eine Webseite in einer einzelnen HTML-Datei zu speichern. Bilder und andere Inhalte werden dabei in die HTML-Datei mit übernommen. Nach der Installation des Add-Ons kann über den entsprechenden Button einfach die Archivierung einer Webseite angestossen werden. Die erzeugte HTML-Datei wird dabei automatisch heruntergeladen.

Das Projekt auf GitHub

Die Erweiterung selbst wird auf GitHub entwickelt und ist unter der AGPL3 lizenziert. Damit handelt es sich bei der Erweiterung um freie Software. Neben der Firefox-Variante kann die Erweiterung auch unter Chrome genutzt werden.

Am Anfang war der Anfang

Vor ein paar Tagen dachte ich länger über die Frage nach, welches Buch aus meiner Sicht mit einem phänomenalen Anfang punkten kann. Und dann fiel mir wieder A Tale of Two Cities von Charles Dickens ein. Im englischen Original beginnt er es dabei wie folgt:

It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity, it was the season of Light, it was the season of Darkness, it was the spring of hope, it was the winter of despair, we had everything before us, we had nothing before us, we were all going direct to Heaven, we were all going direct the other way—in short, the period was so far like the present period, that some of its noisiest authorities insisted on its being received, for good or for evil, in the superlative degree of comparison only.

Dem ein oder anderen werden die Zeilen sehr bekannt vorkommen, auch wenn er das Buch nicht gelesen hat, denn das Buch tauchte öfter bei Star Trek auf. Auch die deutsche Übersetzung von Julius Seybt beginnt nicht minderschön:

Die deutsche Übersetzung von Julius Seybt

Wer nun auf den Geschmack gekommen ist und das Buch lesen möchte, im Internet Archive findet sich eine entsprechende digitalisierte Version. Auch im Projekt Gutenberg-DE des SPIEGEL ist ist eine deutsche Übersetzung zu finden. Eine Version im Original lässt sich auf Wikisource finden.

C64 Preservation Project

Die goldenen Zeiten des Commodore 64 sind (leider) schon seit knapp 30 Jahren vorbei. Software wurde damals auf Kassetten und Disketten ausgeliefert. Gemeinsam haben diese Datenträger, das sie die Daten magnetisch speichern. Diese Datenträger sind dabei nicht auf Langzeit-Archivierung ausgelegt. Damit das Erbe dieser Ära nicht verloren geht, gibt es Projekte wie das C64 Preservation Project. Ziel des Projektes ist es die Erhaltung originärer Spiele und Anwendungen. Dabei geht es auch um solche Dinge wie die Erhaltung des „Kopierschutzes“ der Spiele und Anwendungen.

Die überarbeitete Version des Commodore 64

Die überarbeitete Version des Commodore 64

Anlässlich des zehnjährigen Bestehens wurde die 10th Anniversary Collection vom Projekt herausgegeben. Sie wird beim Internet Archive gehostet. Die offizielle Seite des Projektes ist unter c64preservation.com zu finden.

Wayback Machine Downloader

Das Internet Archive betreibt mit der Wayback Machine ein Archiv des Web. In diesem Archiv kann man sich frühere Version einer Webseite ansehen. Problematisch wird es, wenn man einen Snapshot einer bestimmten Version einer Webseite benötigt. Bei größeren Webseiten ist der manuelle Download zeitaufwendig. Mit dem Wayback Machine Downloader – einem in Ruby geschriebenen Tool – ist es möglich einen solchen Snapshot automatisiert herunterzuladen. Dazu muss das Tool im ersten Schritt über das Terminal installiert werden:

gem install wayback_machine_downloader

Lauffähig ist der Downloader dabei unter Linux, Mac OS X und Windows. Nach der Installation kann ein Snapshot mittels:

wayback_machine_downloader http://example.com -t 20060716231334

heruntergeladen werden. Je nach Größe der Webseite kann der Vorgang dabei einige Stunden dauern. Der Quelltext ist auf GitHub zu finden. Lizenziert ist der Wayback Machine Downloader unter der MIT-Lizenz und damit freie Software.

Gecachte Webseiten aufrufen

Im Internet gibt es eine Reihe von Diensten und Archiven, welche Snapshots von Webseiten speichern. Die bekanntesten dieser Dienste dürften Archive.org bzw. dessen Wayback-Machine und der Google Cache sein.

CachedView.com

CachedView.com

Ist man nun auf der Suche nach einer bestimmten Webseite, so kann man die einzelnen Caches natürlich einzeln abklappern. Eleganter funktioniert dies mit CachedView – dort gibt man die gesuchte URL ein und durchsucht damit gleichzeitig den Google Cache, das Webarchiv von Archive.org und den Coral Cache. Zu Finden ist CachedView unter cachedview.com.