文字コードに対する3つの見方

| コメント(0) | トラックバック(0)

ひとくちに文字コードといっても、ときとして、人によってとらえ方が大きく異なることに戸惑うことがあります。例えば、興味の向かう先が、活字や印刷といった方向である人と、プログラミングである人とは、同じ文字コードといっても想起されるイメージや前提条件などに大きな隔たりがあるのではないかと思えます。

以前、このことを「文字コードに対する3つのスタンス」として考察したことがあるのですが、その後あらためて考えたところ、この3つのスタンスは、文字の符号化・処理・復号という3つのフェーズに対応するように思われました。

下図のようなイメージです。

文字コードに対する3つの見方

文字コードによって計算機上で文字を処理する場合、こうした、符号化・処理・復号というフェーズを経ることになります。このうちどこに重きを置くかによって、同じ文字コードでも見え方が違ってくるのだと思います。

注意したいのは、どれかひとつのスタンスに偏ると全体が見えなくなるおそれがあるということです。プログラミング大好きでコード変換プログラムをいくらたくさん書いたところで、それだけで文字の符号化を理解したことにはなりません。それは符号化された結果のバイト値の操作にすぎないからです(上図の「処理」)。また、印刷や活字に関する仕事をしているからといって文字コードを理解しているとは、やはり限りません。そういう人が関心を持つのは往々にしてバイト値からフォントによって字形を出力するところだけだったりします(上図の「復号」)。フォントの問題を文字コードの問題と混同することはよくある誤りです。

いくらプログラミングに詳しくなってもそれは全体の3分の1にすぎず、またいくら印刷字形に詳しくなってもやはり3分の1にすぎません。

興味深いことに、最初のフェーズである「符号化」に関心を持つ人はあまり多くないように私には見受けられます。このカテゴリに入るのは、青空文庫がやっているような文献の符号化や、文献情報のデータベース化を行う人、文字入力に深い注意を払う人などです。このフェーズは文字コードにとって最も根源的だといえるでしょう。符号化しないことにはその先を論じても意味がないからです。

大事なことは、上図の3つのフェーズにバランスよく目配りし、ひとりよがりにならないことだと思います。

トラックバック(0)

トラックバックURL: http://yanok.net/yanok/mt-tb.cgi/242

コメントする

最近のブログ記事

『プログラマのための文字コード技術入門』第7刷決定!
拙著『プログラマのための文字コード技術入…
名字の第3水準漢字:「㞍」
先日テレビを見ていたら、人名の名字にJI…
JISの幽霊漢字が大正時代の新聞にあったように見えたという記事
JIS X 0208の幽霊漢字についてT…
Jアラート訓練メールで文字化けとのニュース
一昨日のことですが、中国・四国地方から文…
任俠の第3水準漢字
ユーモラス、と言っていいのか分かりません…

広告