OCRmyPDF

Möchte man unter Linux PDFs durchsuchbar machen, benötigt man dafür im Normalfall einige Schritte bis man zu dem gewünschten Ergebnis kommt. Mit Hilfe des Shellscriptes OCRmyPDF kann man sich diese Arbeit vereinfachen. Um eine PDF durchsuchbar zu machen reicht es auf der Konsole:

./OCRmyPDF.sh -l deu input.pdf output.pdf

einzugeben. Bei der ersten Benutzung kann es passieren, das die Umwandlung fehlschlägt. Tritt dieser Fall auf, sind einige Abhängigkeiten (unter anderem Tesseract und Unpaper) nicht installiert. Das Skript weißt den Nutzer auf die zu installierenden Pakete hin. Nachdem diese installiert worden sind, kann OCRmyPDF genutzt werden. Das Skript ist unter der MIT-Lizenz lizenziert und somit freie Software. Der Quelltext sowie die Installationsanleitung sind auf GitHub zu finden.

Freie OCR Software für Noten

Mittels Optical Character Recognition kurz OCR ist es möglich aus Bildern Text zu extrahieren. Seit einigen Jahren gibt es eine solche automatisch Erkennung auch für Noten. Damit wurde es möglich Werke welche nur in gedruckter Form vorlagen zu digitalisieren. Allerdings gab es bisher keine freie Software für eine solche Aufgabe. Mit Audiveris hat sich dies geändert. Diese in Version 4 vorliegende Optical Music Recognition kurz OMR-Software wandelt gedruckte (bzw. gescannte Noten) in MusicXML um.

audiveris.kenai.com

audiveris.kenai.com

Wer das Ausprobieren möchte kann dies auf musescore.com/import nach einer Anmeldung tun. Die offizielle Seite ist unter audiveris.kenai.com zu finden. Der Quelltext kann über die Projektverwaltung, welche auf den Namen Kenai hört bezogen werden. Lizenziert ist Audiveris unter der GPL2.

recaptcha.net

Da es einige Probleme mit meinem Spamplugin gab ich ich reCAPTCHA schon immer mal ausprobieren wollte, habe ich das ganze heute mal im Blog aktiviert. reCAPTCHA bietet dabei zwei Worte, ein bekanntes und ein unbekanntes. Die Wörter sind dabei Büchern etc. entnommen welche digitalisiert werden sollen aber von der OCR nicht erkannt werden konnten. So bringt die ganze Sache gleich etwas positives :)

Weitere Informationen gibt es unter:
http://de.wikipedia.org/wiki/ReCAPTCHA#reCAPTCHA