27. April 2011
von Urs
Kommentare deaktiviert fĂĽr Standards sind so eine Sache
ISO-8859-1, Windows-1252, cp-1252, utf-8 und zum Schluss sind unsere Umlaute nur noch Fragezeichen.
FrĂĽher hatten wir den Zeichensatz ISO-8859-1, ziemlich ähnlich mit dem Zeichensatz Windows-1252, welcher manchmal auch als cp-1252 bezeichnet wurde. Wenigstens fĂĽr unsere Sprache Deutsch, waren darin alle notwendigen Umlaute und das Deutsche “Doppel-S” verfĂĽgbar. Dieser Zeichensatz wurde 1998 letztmals aktualisiert. Im Rahmen von EURO und der Verbreitung des Internets erhielt der Zeichensatz Geschwister, erkennbar an einer Laufnummer wie zum Beispiel 8859-2 fĂĽr Mitteleuropäisch, -5 fĂĽr Kyrillisch, -8 fĂĽr Hebräisch. Nur um ein paar wenige Erweiterungen zu nennen.
Er konkurrenzierte sich somit mit dem im englischen Sprachraum verbreiteten US-ASCII-Code.
Klar war ja auch, dass diese Vielfalt von Zeichensätzen wohl kaum überleben würde, dass da gelegentlich vereinheitlicht und vereinfacht werden müsste. Dazu ist dann allerdings auch notwendig, dass durch alle Internetprotokolle, von der Datenbank beim Provider bis zum Browser am Bildschirm etwas durchgängig darstellbares realisiert werden muss.
“Die Internet Engineering Task Force verlangt von allen neuen Internetkommunikationsprotokollen, dass die Zeichenkodierung deklariert wird und dass UTF-8 eine der unterstĂĽtzten Kodierungen ist. Das Internet Mail Consortium (IMC) empfiehlt, dass alle E-Mail-Programme UTF-8 darstellen und senden können.” (Zitat Wikipedia).
Doch was ist dieses utf-8? Theoretisch könnten mit dieser Codierung über vier Billionen Zeichen dargestellt werden. In der praktischen Anwendung aber beschränkt man sich auf eine gute Million Zeichen. Die ersten 127 Zeichen decken übrigens den US-ASCII Code ab. Darin sind allerdings unsere Umlaute nicht enthalten. Für Interessierte gibt es hier zum Beispiel noch weiter detaillierte Ausführungen.
Obwohl sich noch nicht alle Provider und Anbietr an diese Vorgabe halten, ist abzusehen, dass utf-8 DER Standard im Internet werden wird.
Expressionengine wollte dem nicht nachstehen und versah im Zuge der Umstellung auf die Version 2 gerade mal alle Textfelder mit diesem utf-8 Standard.
Als Folge davon, sind nun hier im Weblog vorerst alle Umlaute, ob grosse oder kleine, zu “?”-Zeichen geworden. Leider gibt es auch nicht die Möglichkeit, diese ?-Zeichen wieder zum ursprĂĽnglichen Umlaut zurĂĽck zu konvertieren. Im Script der Umstellung auf die Version 2 steht denn auch an einer Stelle sinngemäss, der etwas schadenfreudig klingende Hinweis, dass ein paar BenĂĽtzer, welche sich in der Version 1.x ĂĽber die vorgegebenen Standards hinweggesetzt hatten, wohl einen kleineren “Tanz” vollfĂĽhren mĂĽssen, bis die Umlaute wieder da sind.
Persönlich finde ich diese Bemerkung weit daneben. Denn Expressionengine ist immerhin eine Software, die sehr viel Spielraum und Kreativität in der Entwicklung von Lösungen zulässt. Andererseits sehe ich auch ein, dass standardisiert und vereinfacht werden muss. Doch bei einer ständig wachsenden Community von derzeit ĂĽber 200’000 eingetragenen Benutzern, hätte vielleicht eine etwas angepasstere Umstellung schon noch dringelegen. Gehe jedenfalls davon aus, dass dieses Weblog weder das Einzige noch das Grösste in Westeuropa ist.
Nach ersten Versuchen bin ich zuversichtlich, dass es mir wohl gelegentlich gelingen dĂĽrfte, die verlorenen Umlaute wieder “zurĂĽckzuholen”.