Byte-Reihenfolge-Markierung: Unterschied zwischen den Versionen

Aus Mikiwiki
Zur Navigation springen Zur Suche springen
(Die Seite wurde neu angelegt: «Als <b>Byte-Reihenfolge-Markierung</b> (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Un…»)
 
Keine Bearbeitungszusammenfassung
 
(6 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
Als <b>Byte-Reihenfolge-Markierung</b> (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Unicode-Zeichen U+FEFF (engl. zero width no-break space) kodiert. Diese Byte-Folge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in UCS/[[Unicode]]-Zeichenketten, insbesondere Textdateien.
Als <b>Byte-Reihenfolge-Markierung</b> (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Unicode-Zeichen U+FEFF (engl. zero width no-break space) kodiert. Diese Byte-Folge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in [[Unicode]]-Zeichenketten, insbesondere Textdateien.
 
[[UTF-8]] benötigt keine Byte-Reihenfolge-Markierung (und so wird normalerweise auch keine gesetzt), die anderen Unicode-Kodierungen benötigen aber eine.
* http://www.unicode.org/faq/utf_bom.html#bom4
 
== Hinzufügen einer BOM zu bestehenden UTF-Dateien ==
 
Eine Datei.
 
$ <b>sed -i '1s/^/\xef\xbb\xbf/' datei.txt</b>
 
Alle Dateien im aktuellen Verzeichnis.
 
$ <b>for datei in $(ls -1)
    do
    sed -i '1s/^/\xef\xbb\xbf/' ${datei}
    done</b>
 
== Entfernen einer BOM aus bestehenden UTF-Dateien ==
 
Eine Datei.
 
$ <b>sed -i '1s/^\xef\xbb\xbf//' orig.txt</b>
 
Alle Dateien im aktuellen Verzeichnis.
 
$ <b>for datei in $(ls -1)
    do
    sed -i '1s/^\xef\xbb\xbf//' ${datei}
    done</b>


== Weblinks ==
== Weblinks ==

Aktuelle Version vom 16. April 2024, 17:43 Uhr

Als Byte-Reihenfolge-Markierung (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Unicode-Zeichen U+FEFF (engl. zero width no-break space) kodiert. Diese Byte-Folge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in Unicode-Zeichenketten, insbesondere Textdateien.

UTF-8 benötigt keine Byte-Reihenfolge-Markierung (und so wird normalerweise auch keine gesetzt), die anderen Unicode-Kodierungen benötigen aber eine.

Hinzufügen einer BOM zu bestehenden UTF-Dateien

Eine Datei.

$ sed -i '1s/^/\xef\xbb\xbf/' datei.txt

Alle Dateien im aktuellen Verzeichnis.

$ for datei in $(ls -1)
    do
    sed -i '1s/^/\xef\xbb\xbf/' ${datei}
    done

Entfernen einer BOM aus bestehenden UTF-Dateien

Eine Datei.

$ sed -i '1s/^\xef\xbb\xbf//' orig.txt

Alle Dateien im aktuellen Verzeichnis.

$ for datei in $(ls -1)
    do
    sed -i '1s/^\xef\xbb\xbf//' ${datei}
    done

Weblinks

Herausgeber Sprache Webseitentitel Anmerkungen
Wikipedia ger Byte-Reihenfolgewbm Enzyklopädischer Artikel
Wikipedia ger Order Mark Byte Order MarkOrder Mark wbm Enzyklopädischer Artikel