Schlagwort: Unicode · Seite 2

Mit dem freien Office-Paket LibreOffice ist unter anderem möglich Formulare und ähnliches zu erstellen. Etwas schwieriger wird es, wenn eine Checkbox für ein Writer-Dokument benötigt wird. Der einfachste Weg ist es in diesem Fall das Ballot Box-Zeichen zu nutzen:

☐

Mit diesem Zeichen können Checkboxen einfach in Writer-Dokumente eingebaut werden.

Mit dem Ballot Box-Zeichen können Checkboxen realisiert werden

Neben diesem Zeichen finden sich weitere Zeichen wie unter anderem das Ballot Box with X-Zeichen:

☒

im Unicode im Block Miscellaneous Symbols.

Im HTML existiert für das geschützte Leerzeichen die HTML-Entity:

nbsp;

Bei bestimmten Frameworks aus dem HTML5-Bereich wie Framework 7 kann diese Entity allerdings nicht genutzt werden, da z.B. Unterseiten als XML interpretiert werden und der Parser in diesem Fall mit einer Fehlermeldung reagieren würde. Stattdessen kann für das geschützte Leerzeichen das Zeichen:

&#160;

genutzt werden. Bei diesem Zeichen handelt es sich ebenfalls um das geschützte Leerzeichen.

Unicode besteht mittlerweile aus über 137.000 Zeichen. Während ASCII mit seinen 128 Zeichen noch übersichtlich daherkam, ist dies bei Unicode etwas komplexer. Abhilfe schafft hier das Webprojekt der Unicode-Zeichentabelle. In dieser Tabelle lassen sich Unicode-Zeichen betrachten, kopieren und einzeln aufrufen. In der Einzelansicht werden verschiedene technische Angaben zu dem jeweiligen Zeichen dargestellt.

Die Unicode-Tabelle stellt die Unicode-Zeichen übersichtlich da

Zu finden ist das Projekt unter unicode-table.com. Die Seite steht in unterschiedlichen Sprachen, unter anderem Russisch, Englisch, Polnisch und Deutsch zur Verfügung. Die Daten, welche vom Projekt genutzt werden, sind auf GitHub zu finden.

Viele Fonts decken einen gewissen Teil der Unicode-Zeichen ab. Wenn sich ein Zeichen im Text befindet, welches nicht dargestellt werden kann, so erscheint stattdessen das Zeichen �. Dieses Zeichen in der Umgangssprache Tofu genannt ist der Platzhalter für Zeichen, die in der Schriftart nicht enthalten sind. Beim Zeichen selber handelt es sich um das Notdef-Zeichen. Allerdings existiert mittlerweile ein Font, dessen erklärtes Ziel es ist keine Notdef-Zeichen mehr zuzulassen. Der Name des Fonts, Noto, steht für No More Tofu und stellt das Ziel des Fonts dar.

Unterschiedlichste Schriftsysteme werden unterstützt

Mittlerweile hat das Projekt einige Jahre Entwicklung hinter sich. 2011 gestartet werden über 64.000 Zeichen unterstützt, was in etwa die Hälfte der im Unicode definierten Zeichen ist. Dies schlägt sich allerdings in der Größe des Fonts nieder; im Moment belegt dieser knapp 1,5 Gibibyte auf der Festplatte. Deshalb ist er in unterschiedliche Dateien, mit den jeweiligen Schriftfamilien, aufgeteilt. Neben den unterschiedlichen Zeichen finden sich unterschiedliche Schnitte (wie z.B. Fett, Kursiv) im Font. Heruntergeladen kann der Font über die Projektseite von Google. Daneben kann die Entwicklung auf GitHub verfolgt werden. Lizenziert ist Noto unter der SIL Open Font License und damit freie Software.

Vor einigen Tagen stand ich vor dem Problem dass ich die Zeichen in einer Unicode-Zeichenkette auf die Schnelle identifizieren wollte. Hilfreich zur Seite sprang mir dann eine kleine Webapplikationen der Seite babelstone.co.uk.

Eine Unicode-Zeichenkette wird identifiziert

Besagte Webapplikation nimmt eine Zeichenkette entgegen und gibt anschließend die einzelnen Zeichen mit ihrer Unicode-Beschreibung aus. Damit kann das Problem unbekannter Zeichen in einer Zeichenklette sehr schnell gelöst werden.

seeseekey.net

Deus ex machina

Checkboxen im LibreOffice Writer

nbsp; in XML

Unicode-Tabelle im Web

One font to rule them all

Unicode-Zeichen identifizieren