関連したものを区別する

| コメント(0) | トラックバック(0)

関連しているけれども違うもの、というのがあって、しばしば混同されます。

言語と文字

文字は言語を記すために使われますが、文字と言語は同じものではないし一対一に対応もしません。

どういうことかというと、ラテン文字は英語だけでなくフランス語ドイツ語ベトナム語インドネシア語等さまざまな言語の表記に使われます。そもそもが、「ラテン」文字というくらいで、英語のために作られた文字ではありません。

また、平仮名・片仮名は日本語の表記によく使われますが、アイヌ語の表記にも片仮名が使われますし、またさまざまな外国語の音を写すのにも(しばしば不十分ながら)使われます。「グーテンターク」が日本語でなくドイツ語であることは明らかです。

漢字のフォントのデザインは日本と中国・台湾とで異なります。これは言語の違いによるものではなく、それぞれの地域における活字設計の方針の違いによるものです。

文字コードとフォント

文字コードとフォントは互いに関連しますが、別のものです。

文字コードは文字の種類に符号化表現を割り当てたコード体系です。一方フォントは、具体的な字形を出力するための図形データの集合です。

文字コード表には文字の形が載っていますが、あれは一般的に「その符号位置に対応するのはどんな文字か」を示すためのものであって、フォントの形を規定するものではありません。つまりある符号位置の升目に「人」という字が載っているなら、それは「私たちが知っているあの『人』という字」ということを指しているのみであって、「人」という字の具体的な形をどう実現するかは文字コードのあずかりしるところではありません (もっとも、他の漢字と区別がつくようにする必要はあります。例えば1-38-94「入」と区別がつかないと困ります)。

JIS X 0213の2004年改正のときに、「謎」という字のしんにょうが1点か2点かという話が文字コードの問題であるかのように言われたことがありましたが、それは文字コードではなくフォントの問題です。ただし、両者の字体を区別して異なる符号位置を与えるなら(実際にはそのような必要はありませんが)それは文字コードの問題になります。

記号とその指すもの、それに文字コード

記号とその記号の指し示す概念とは、関連はしますが区別する必要があります。そして文字コードが符号化するのは記号の方です。

例えば「$」という記号は通常「ドル記号」のように呼ばれ、米国等の通貨を表すのに使われます。しかしこの記号が指し示すものと、記号そのものとは、当然関連してはいますが別のものです。米ドルとカナダドルと豪ドルとは同じ「$」記号を使っていても異なる通貨です。またプログラミング言語では変数を示すのにこの記号が使われることもありますし、正規表現では文字列終端を意味します。もし「$」が米国の通貨を指すのにしか使えないとしたらこうした使用はできないことになります。また、ASCIIの0x24というコード値に対応するものは「$」という記号であって、その記号が指す(例えば)米国の通貨という概念そのものではありません。「$」という記号の具体的な視覚表現にはこの記号として認められる範囲があります。例えば縦線が1本でも2本でも同じ記号と見なされますし、縦線が通じているか途切れているかという表現上の違いもありますがいずれにせよ同じ記号です。

同様に、ASCIIの0x52というコード値に対応するのはラテン大文字のRという(記号としての)文字であって、英語のR音やドイツ語のR音や日本語のラ行子音といった概念ではありません。もし特定の言語の音を示すためにしか使えないとしたら、気体の状態方程式 pV=nRT のような用法には使えなくなってしまうとも考えられます。

同様に、JIS X 0213の1面5区2点は平仮名の「あ」という文字を指しているのであって、この文字で示される日本語の音韻としての「あ」音を符号化しているわけではありません。平仮名や片仮名が日本語表記だけに使われるとは限らないことは上述のとおりです。もし記号ではなく音韻を符号化しているのだとしたら、「私は」のようにワと発音される「は」はどうなるのでしょう。

同様に、JIS X 0213の面区点1-20-89は「机」という(図形を抽象化した概念としての記号であるところの)文字を符号化しているのであって、「つくえ」という字義や単語、あるいは「キ」のような読みを符号化しているわけではありません。面区点1-32-24に対応する「生」という漢字は日本語表記では「なま」「いきる」「うむ」など、読みも意味も異なる単語の表記に使われますが、ひとつの符号位置が対応します。読みや意味が違うから分けるということはしません。もしそうしたら実用上とても面倒です。

こうしたことを頭においてJIS X 0208:1997の本文および「解説」を読むと面白いでしょう。

トラックバック(0)

トラックバックURL: http://yanok.net/yanok/mt-tb.cgi/556

コメントする

最近のブログ記事

『プログラマのための文字コード技術入門』第7刷決定!
拙著『プログラマのための文字コード技術入…
名字の第3水準漢字:「㞍」
先日テレビを見ていたら、人名の名字にJI…
JISの幽霊漢字が大正時代の新聞にあったように見えたという記事
JIS X 0208の幽霊漢字についてT…
Jアラート訓練メールで文字化けとのニュース
一昨日のことですが、中国・四国地方から文…
任俠の第3水準漢字
ユーモラス、と言っていいのか分かりません…

広告