Byte-Reihenfolge-Markierung: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Michi (Diskussion | Beiträge) (Die Seite wurde neu angelegt: «Als <b>Byte-Reihenfolge-Markierung</b> (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Un…») |
Michi (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
(6 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
Als <b>Byte-Reihenfolge-Markierung</b> (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Unicode-Zeichen U+FEFF (engl. zero width no-break space) kodiert. Diese Byte-Folge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in | Als <b>Byte-Reihenfolge-Markierung</b> (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Unicode-Zeichen U+FEFF (engl. zero width no-break space) kodiert. Diese Byte-Folge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in [[Unicode]]-Zeichenketten, insbesondere Textdateien. | ||
[[UTF-8]] benötigt keine Byte-Reihenfolge-Markierung (und so wird normalerweise auch keine gesetzt), die anderen Unicode-Kodierungen benötigen aber eine. | |||
* http://www.unicode.org/faq/utf_bom.html#bom4 | |||
== Hinzufügen einer BOM zu bestehenden UTF-Dateien == | |||
Eine Datei. | |||
$ <b>sed -i '1s/^/\xef\xbb\xbf/' datei.txt</b> | |||
Alle Dateien im aktuellen Verzeichnis. | |||
$ <b>for datei in $(ls -1) | |||
do | |||
sed -i '1s/^/\xef\xbb\xbf/' ${datei} | |||
done</b> | |||
== Entfernen einer BOM aus bestehenden UTF-Dateien == | |||
Eine Datei. | |||
$ <b>sed -i '1s/^\xef\xbb\xbf//' orig.txt</b> | |||
Alle Dateien im aktuellen Verzeichnis. | |||
$ <b>for datei in $(ls -1) | |||
do | |||
sed -i '1s/^\xef\xbb\xbf//' ${datei} | |||
done</b> | |||
== Weblinks == | == Weblinks == |
Aktuelle Version vom 16. April 2024, 17:43 Uhr
Als Byte-Reihenfolge-Markierung (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Unicode-Zeichen U+FEFF (engl. zero width no-break space) kodiert. Diese Byte-Folge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in Unicode-Zeichenketten, insbesondere Textdateien.
UTF-8 benötigt keine Byte-Reihenfolge-Markierung (und so wird normalerweise auch keine gesetzt), die anderen Unicode-Kodierungen benötigen aber eine.
Hinzufügen einer BOM zu bestehenden UTF-Dateien
Eine Datei.
$ sed -i '1s/^/\xef\xbb\xbf/' datei.txt
Alle Dateien im aktuellen Verzeichnis.
$ for datei in $(ls -1) do sed -i '1s/^/\xef\xbb\xbf/' ${datei} done
Entfernen einer BOM aus bestehenden UTF-Dateien
Eine Datei.
$ sed -i '1s/^\xef\xbb\xbf//' orig.txt
Alle Dateien im aktuellen Verzeichnis.
$ for datei in $(ls -1) do sed -i '1s/^\xef\xbb\xbf//' ${datei} done
Weblinks
Herausgeber | Sprache | Webseitentitel | Anmerkungen |
---|---|---|---|
Wikipedia | ger | Byte-Reihenfolgewbm | Enzyklopädischer Artikel |
Wikipedia | ger | Order Mark Byte Order MarkOrder Mark wbm | Enzyklopädischer Artikel |