Zeichenkodierung: Unterschied zwischen den Versionen

Aus Mikiwiki
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
Zeile 36: Zeile 36:
{{cat|Rechner}}
{{cat|Rechner}}
{{cat|Zeichenkodierung}}
{{cat|Zeichenkodierung}}
{{cat|Zeichensatz}}

Version vom 5. Februar 2009, 20:04 Uhr

Unter Zeichenkodierung (auch: Encoding; encl. character encoding) wird die Darstellung eines Schriftzeichens (Buchstabe, Zahl, Ziffer, Symbol) mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes verstanden. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Rechner verarbeitungsfähig zu machen.

Ursprünglich wurden hierfür aber optische, akustische oder elektrische Signale verwendet, in aller Regel durch Abfolgen von langem und kurzem Signal, hohem und tiefem Ton oder hoher und niedriger Spannung. Vorgezogen wurden also seit jeher binäre Systeme, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt.

Mit der Entwicklung von Rechnern begann die Umsetzung der im Grunde schon seit dem Baudot-Code verwendeten binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer. Digitalisierung verlangte nach einem standardisierten Code zur Repräsentation der Information:

  • aus technischen Gründen wurde (etwa im Gegensatz zum Morsealphabet) ein Code beigezogen, der jedes Zeichen unabhängig von dessen relativer Häufigkeit in der Sprache mit gleich vielen Binärpositionen 0/1 repräsentiert
  • kombinatorische Überlegungen führten zu einem für die damaligen Bedürfnisse genügenden 8-Bit-Code. Mit 8 Bits stehen 256 verschiedene 0/1-Kombinationen zur Verfügung, d. h. ein 8-Bit-Code hat einen Zeichenvorrat von 256 Zeichen.
  • jedem Buchstaben, jeder Ziffer ist demnach ein Code zu 8 Bits zugeordnet; dieses 8er-Paket nennt sich 1 Byte

Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen (sogenannte Charsets) festgelegt werden. 1963 wurde eine erste 7-Bit-Version von ASCII durch die American Standards Association / ASA definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl IBM an der Definition mitgearbeitet hatte, führte die Firma 1964 den eigenen 8-Bit-Zeichencode EBCDIC ein. Beide finden bis heute in der Rechnertechnik Verwendung.

Da für die verschiedenen Sprachen andere diakritische Zeichen benötigt werden, gibt es für Sprachgruppen bestimmte Charsets. Die ISO hat mit der Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen und Thai standardisiert.

Das Unicode Consortium schliesslich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Kodeform zu definieren. Unicode ist gleichzeitig die internationale Norm ISO 10646.

Vor dem Verarbeiten elektronischer Texte muss das verwendete Charset eingestellt werden. Dazu dienen beispielsweise folgende Angaben.

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  • Definition des Zeichensatzes in den Kopfzeilen (Headern) einer E-Mail oder eines HTTP-Dokuments
Content-Type: text/plain; charset="ISO-8859-1"

Weblinks

Vorlage:dewi