Byte-Reihenfolge-Markierung: Unterschied zwischen den Versionen

Aus Mikiwiki
Wechseln zu: Navigation, Suche
(Hinzufügen einer BOM zu bestehenden UTF-Dateien)
Zeile 8: Zeile 8:
 
Eine Datei.
 
Eine Datei.
  
  $ <b>sed -i '1s/^/\xef\xbb\xbf/' utf8-datei.txt</b>
+
  $ <b>sed -i '1s/^/\xef\xbb\xbf/' datei.txt</b>
  
Alle dateien im aktuellen verzeichnis.
+
Alle dateien im aktuellen Verzeichnis.
  
 
  $ <b>for datei in $(ls -1)
 
  $ <b>for datei in $(ls -1)

Version vom 20. April 2023, 18:54 Uhr

Als Byte-Reihenfolge-Markierung (engl. byte order mark / BOM) wird eine charakteristische Byte-Folge am Anfang eines Datenstroms bezeichnet, welche das Unicode-Zeichen U+FEFF (engl. zero width no-break space) kodiert. Diese Byte-Folge dient als Kennung zur Definition der Byte-Reihenfolge und Kodierungsform in Unicode-Zeichenketten, insbesondere Textdateien.

UTF-8 benötigt keine Byte-Reihenfolge-Markierung (und so wird normalerweise auch keine gesetzt), die anderen Unicode-Kodierungen benötigen aber eine.

Hinzufügen einer BOM zu bestehenden UTF-Dateien

Eine Datei.

$ sed -i '1s/^/\xef\xbb\xbf/' datei.txt

Alle dateien im aktuellen Verzeichnis.

$ for datei in $(ls -1)
    do
    sed -i '1s/^/\xef\xbb\xbf/' ${datei}
    done

Weblinks

Herausgeber Sprache Webseitentitel Anmerkungen
country DE.gif Wikipedia ger Byte-Reihenfolgewbm Enzyklopädischer Artikel
country DE.gif Wikipedia ger Byte Order MarkOrder Mark wbm Enzyklopädischer Artikel