8-Bit Unicode Transformation Format: Unterschied zwischen den Versionen
Michi (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
Michi (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
Zeile 9: | Zeile 9: | ||
== Verwendung == | == Verwendung == | ||
Ausgabe der UTF-8-Kodierung des Zeichens "α" (Alpha aus dem [http://www.unicode.org/charts/PDF/U0370.pdf griechischen Alphabet]). Im Beispiel | Ausgabe der UTF-8-Kodierung des Zeichens "α" (Alpha aus dem [http://www.unicode.org/charts/PDF/U0370.pdf griechischen Alphabet]). Im Beispiel das Zeichen "α" die (hexadezimale ) UTF-8-Kodierung "ceb1" (also genau umgekehrt wie von "echo" ausgegeben; dezimal: 316 261, hier ist die Reihenfolge wie angezeigt). Danach folgt noch ein Zeilenumbruch ("0a") und nichts weiter ("00"). | ||
$ <b>echo α | od -xc | {| class=wiki | ||
! Zeichen !! hexadezimal !! dezimal | |||
|- | |||
| α || ceb1 || 316 261 | |||
|- | |||
| [Zeilenumbruch] || 0a || \n | |||
|- | |||
| [nichts] || 00 || \0 | |||
|} | |||
$ <b>echo α | od -xc</b> | |||
0000000 b1ce 000a | 0000000 b1ce 000a | ||
316 261 \n \0 | 316 261 \n \0 | ||
0000003 | 0000003 | ||
Dieselbe Ausgabe, aber ohne von "echo" an die Ausgabe angehängten Zeilenumbruch. | |||
$ <b>echo -n α | od -xc</b> | |||
0000000 b1ce 000a | |||
316 261 | |||
0000002 | |||
== Weblinks == | == Weblinks == |
Version vom 27. Januar 2010, 08:58 Uhr
Das 8-Bit Unicode Transformation Format / UTF-8 ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. Dabei wird jedem Unicode-Zeichen eine besonders kodierte Bytekette von variabler Länge zugeordnet. UTF-8 unterstützt bis zu vier Byte, auf die sich wie bei allen UTF-Formaten alle Unicode-Zeichen abbilden lassen.
UTF-8 wurde als Alternative zu UTF-16 entwickelt und stellt jedes Zeichen durch 8 Bit bzw. ein Byte dar. Dabei werden die US-ASCII-Zeichen (7 Bit) wie bisher durch ein Byte dargestellt, deren oberstes Bit 0 ist. Alle anderen Unicode-Zeichen werden durch zwei bis vier Byte lange Byte-Ketten dargestellt. Damit gibt es keinen unmittelbaren Zusammenhang mehr zwischen der Anzahl Bytes und der Anzahl Zeichen einer Datei.
UTF-8 hat eine zentrale Bedeutung als globale Zeichenkodierung im Internet und ist inzwischen die meist genutzte Unicode-Anwendung. Die Internet Engineering Task Force verlangt von allen neuen Internetkommunikationsprotokollen, dass die Zeichenkodierung deklariert wird und dass UTF-8 eine der unterstützten Kodierungen ist. Das Internet Mail Consortium / IMC empfiehlt, dass alle E-Mail-Programme UTF-8 darstellen und senden können.
Auch bei dem in Webbrowsern verwendeten HTML setzt sich UTF-8 zur Darstellung von länder- und sprachspezifischen Zeichen zunehmend durch und ersetzt die vorher benutzten HTML-Sonderzeichen.
Verwendung
Ausgabe der UTF-8-Kodierung des Zeichens "α" (Alpha aus dem griechischen Alphabet). Im Beispiel das Zeichen "α" die (hexadezimale ) UTF-8-Kodierung "ceb1" (also genau umgekehrt wie von "echo" ausgegeben; dezimal: 316 261, hier ist die Reihenfolge wie angezeigt). Danach folgt noch ein Zeilenumbruch ("0a") und nichts weiter ("00").
Zeichen | hexadezimal | dezimal |
---|---|---|
α | ceb1 | 316 261 |
[Zeilenumbruch] | 0a | \n |
[nichts] | 00 | \0 |
$ echo α | od -xc 0000000 b1ce 000a 316 261 \n \0 0000003
Dieselbe Ausgabe, aber ohne von "echo" an die Ausgabe angehängten Zeilenumbruch.
$ echo -n α | od -xc 0000000 b1ce 000a 316 261 0000002