Pro-Linux

Hai!
Die UTF-8-Unterstützung in Linux ist inzwischen ja recht ausgereift. Andererseits stoße ich häufig auf Textdateien, die noch in ISO-8859-1(5) kodiert sind. Und wenn ich die auf dem Terminal ausgeben will (mit Tools wie "cat" oder "less"), gibt es ein Problem:
Ist mein "xterm" auf UTF-8 geschaltet, werden die Zeichen mit dem achten Bit als Kauderwelsch oder als "unmöglich" (leeres Kästchen) dargestellt.
Ist es auf 1-byte-Zeichen gestellt, so wird eine solche Textdatei natürlich richtig dargestellt, aber dafür die UTF-8-kodierten falsch. Zudem kann ich keine Nicht-ASCII-Zeichen mehr eingeben, weil die Tastatureingabe ja auch auf UTF-8 gemünzt ist.

Was tun?
Gibt es nicht eine Möglichkeit, daß ein Terminal jedes Byte, das es nicht als Teil einer UTF-8-Bytesequenz interpretieren kann, als ISO-8859-1 betrachtet und ausgibt? Also so eine Art Hybridmodus?
Programme wie "vi" scheinen es ja auch zu kapieren und stellen eine Datei fast unter allen Umständen richtig dar.

MfG
Tronar

Dateien, die falsch kodiert sind solltest du umkodieren. Geht mit iconv oder fehlertoleranter mit piconv.

Für Dateien, die du nicht konvertieren möchtest (z.B. weil sie extern mit anderen geteilt werden) kannst du ja "view" statt "less" nehmen.

Janka

Janka wrote:Dateien, die falsch kodiert sind solltest du umkodieren. Geht mit iconv oder fehlertoleranter mit piconv.

Klar, aber wenn ich irgendwo ein README-File finde, in das ich nur einen Blick werfen will, mache ich mir meist nicht die Mühe. Ein besonderes Problem bei mir ist, daß ich auch viel mit FreeBSD arbeite, wo die UTF-8-Unterstützung noch kaum vorhanden ist, und somit oft Dateien hin und her schieben muß.

Janka wrote:Für Dateien, die du nicht konvertieren möchtest (z.B. weil sie extern mit anderen geteilt werden) kannst du ja "view" statt "less" nehmen.

Notlösungen gibt es ohne Zweifel, aber eine "echte" Lösung offenbar nicht. Ich habe dem Entwickler von "xterm" eine entsprechende "feature request" gemailt, und er zeigte sich interessiert. Mal die nächste Version abwarten ...!

Gruß
Tronar

Pro-Linux

UTF-8 im Terminal

UTF-8 im Terminal