Zeichenkodierung: Unterschied zwischen den Versionen
Michi (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
Michi (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
(3 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 4: | Zeile 4: | ||
hohem und tiefem Ton oder hoher und niedriger Spannung. Vorgezogen wurden also seit jeher binäre Systeme, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt. | hohem und tiefem Ton oder hoher und niedriger Spannung. Vorgezogen wurden also seit jeher binäre Systeme, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt. | ||
Mit der Entwicklung von [[Rechner]]n begann die Umsetzung der | Mit der Entwicklung von [[Rechner]]n begann die Umsetzung der binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer. Digitalisierung verlangte nach einem standardisierten Code zur Repräsentation der Information: | ||
* aus technischen Gründen wurde (etwa im Gegensatz zum Morsealphabet) ein Code beigezogen, der jedes Zeichen unabhängig von dessen relativer Häufigkeit in der Sprache mit gleich vielen Binärpositionen 0/1 repräsentiert | * aus technischen Gründen wurde (etwa im Gegensatz zum Morsealphabet) ein Code beigezogen, der jedes Zeichen unabhängig von dessen relativer Häufigkeit in der Sprache mit gleich vielen Binärpositionen 0/1 repräsentiert | ||
* kombinatorische Überlegungen führten zu einem für die damaligen Bedürfnisse genügenden 8-Bit-Code. Mit 8 | * kombinatorische Überlegungen führten zu einem für die damaligen Bedürfnisse genügenden 8-Bit-Code. Mit 8 Bit stehen 256 verschiedene 0/1-Kombinationen zur Verfügung, d. h. ein 8-Bit-Code hat einen Zeichenvorrat von 256 Zeichen. | ||
* jedem Buchstaben, jeder Ziffer ist demnach ein Code zu 8 | * jedem Buchstaben, jeder Ziffer ist demnach ein Code zu 8 Bit zugeordnet; dieses 8er-Paket nennt sich 1 Byte | ||
Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen (sogenannte Charsets) festgelegt werden. 1963 wurde eine erste 7-Bit-Version von [[ASCII]] durch die American Standards Association / ASA definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl [[IBM]] an der Definition mitgearbeitet hatte, führte die Firma 1964 den eigenen 8-Bit-Zeichencode [[EBCDIC]] ein. Beide finden bis heute in der [[Rechnertechnik]] Verwendung. | Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen (sogenannte Charsets) festgelegt werden. 1963 wurde eine erste 7-Bit-Version von [[ASCII]] durch die American Standards Association / ASA definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl [[IBM]] an der Definition mitgearbeitet hatte, führte die Firma 1964 den eigenen 8-Bit-Zeichencode [[EBCDIC]] ein. Beide finden bis heute in der [[Rechnertechnik]] Verwendung. | ||
Zeile 31: | Zeile 31: | ||
== Weblinks == | == Weblinks == | ||
{{ | {{Weblinks}} | ||
{{url_dewikipedia|Zeichenkodierung|Zeichenkodierung}} | |||
{{Fuss}} | |||
Aktuelle Version vom 26. Februar 2010, 22:22 Uhr
Unter Zeichenkodierung (auch: Encoding; encl. character encoding) wird die Darstellung eines Schriftzeichens (Buchstabe, Zahl, Ziffer, Symbol) mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes verstanden. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Rechner verarbeitungsfähig zu machen.
Ursprünglich wurden hierfür aber optische, akustische oder elektrische Signale verwendet, in aller Regel durch Abfolgen von langem und kurzem Signal, hohem und tiefem Ton oder hoher und niedriger Spannung. Vorgezogen wurden also seit jeher binäre Systeme, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt.
Mit der Entwicklung von Rechnern begann die Umsetzung der binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer. Digitalisierung verlangte nach einem standardisierten Code zur Repräsentation der Information:
- aus technischen Gründen wurde (etwa im Gegensatz zum Morsealphabet) ein Code beigezogen, der jedes Zeichen unabhängig von dessen relativer Häufigkeit in der Sprache mit gleich vielen Binärpositionen 0/1 repräsentiert
- kombinatorische Überlegungen führten zu einem für die damaligen Bedürfnisse genügenden 8-Bit-Code. Mit 8 Bit stehen 256 verschiedene 0/1-Kombinationen zur Verfügung, d. h. ein 8-Bit-Code hat einen Zeichenvorrat von 256 Zeichen.
- jedem Buchstaben, jeder Ziffer ist demnach ein Code zu 8 Bit zugeordnet; dieses 8er-Paket nennt sich 1 Byte
Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen (sogenannte Charsets) festgelegt werden. 1963 wurde eine erste 7-Bit-Version von ASCII durch die American Standards Association / ASA definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl IBM an der Definition mitgearbeitet hatte, führte die Firma 1964 den eigenen 8-Bit-Zeichencode EBCDIC ein. Beide finden bis heute in der Rechnertechnik Verwendung.
Da für die verschiedenen Sprachen andere diakritische Zeichen benötigt werden, gibt es für Sprachgruppen bestimmte Charsets. Die ISO hat mit der Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen und Thai standardisiert.
Das Unicode Consortium schliesslich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Kodeform zu definieren. Unicode ist gleichzeitig die internationale Norm ISO 10646.
Vor dem Verarbeiten elektronischer Texte muss das verwendete Charset eingestellt werden. Dazu dienen beispielsweise folgende Angaben.
- Definition des Zeichensatzes in einer HTML-Seite
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
- Definition des Zeichensatzes in den Kopfzeilen (Headern) einer E-Mail oder eines HTTP-Dokuments
Content-Type: text/plain; charset="ISO-8859-1"
Weblinks
Herausgeber | Sprache | Webseitentitel | Anmerkungen |
---|---|---|---|
Wikipedia | ger | Zeichenkodierungwbm | Enzyklopädischer Artikel |