冗長なUTF-8を試す: iconv, nkf、その他は?

| コメント(0) | トラックバック(0)

拙著『プログラマのための文字コード技術入門』で説明した、冗長なUTF-8の問題についての話です。

拙著p.168では、iconvとnkfについては、冗長なUTF-8がチェックされ、そのまますり抜けることはないことを記しておきました。ではiconvやnkfのようなコード変換以外のプログラムではどう扱われるかを、少し検証してみます。

拙著p.168に記した方法で、冗長なUTF-8のファイルを作成し、いろいろなプログラムに(適宜UTF-8を指定のうえ)読み込ませてみました。読み込ませるファイルは「!」という文字を冗長なUTF-8で表現したものです。

以下に調査結果を記します。ファイルが文字「!」として認識されなければOKです。つまり、「不明な文字となる」や「表示されない」というのは妥当な動作です。使用したソフトウェアにはバージョンの古いものもありますがあしからずご了承ください。また、本当に冗長性への対処を保証したい場合は、ここに記している結果を鵜呑みにせず、必要に応じて自分で調査することをおすすめします。

Ubuntu Linux 9.04上のソフトウェア:

Firefox 3.0

不明な文字となる。

Firefox 3.5

不明な文字となる。

GNOME端末 2.26.0

不明な文字となる。

Eclipseのエディタ

不明な文字となる。

mlterm 2.9.4

表示されない。

gedit

開けない (UTF-8として認識されない)。

Emacs 22

「!」という文字になる。編集してセーブすると、正しい(冗長でない)UTF-8のバイト列になる。

OpenOffice.org Writer 3.0

「!」という文字になる。編集してテキストとしてセーブすると、正しい(冗長でない)UTF-8のバイト列になる。ちなみにBOM付きUTF-8になる模様。

Windows XP上のソフトウェア:

Internet Explorer 7

不明な文字となる。

Firefox 3.6

不明な文字となる。

メモ帳

表示されない。

トラックバック(0)

トラックバックURL: http://yanok.net/yanok/mt-tb.cgi/110

コメントする

最近のブログ記事

どうせクレジットカードを持つなら出身大学の支援になるものはどうか
大学カードというものがある 今や生活に欠…
「など」の使い方
曖昧な言い方が好まれる風潮があると感じて…
日本の文字は「表イメージ文字」でいいのか
笹原 宏之『漢字に託した「日本の心」』 …
Creative Commonsライセンスの作品は無条件で使って良いわけではない
他人の写真や文章を盗用・コピペする「キュ…
「小樽雪あかりの路」の魅力
北海道の冬のイベントというと札幌の雪まつ…

広告