2011年11月アーカイブ

Anthyに続き、ATOK用にも、JIS第3・第4水準の辞書を作成し、このたび公開しました。下記のリンクからどうぞ。

10年にわたって保守・開発されている、SKK用のJIS X 0213対応辞書SKK-JISYO.JIS3_4SKK-JISYO.JIS2004を元に作成したものです。

これで、ATOKでも、魹ヶ崎 (とどがさき、岩手県宮古市)、𣖔木作 (ほうのきざく、福島県いわき市)、𩸕網代 (きびなごあじろ、長崎県五島列島)、吐噶喇列島といった地名や、三国志の登場人物の龐統や許褚、邢道栄、賈詡、譙周、などなど、書家の米芾 (べいふつ)、褚遂良 (ちょすいりょう) といった人名、火星の意味の熒惑 (けいこく)、世界史の授業で習った璦琿(あいぐん)条約、菩薩の意味の菩提薩埵、美少女を意味する蜾蠃少女(すがるおとめ)、などなど、様々な漢字が変換できるようになります。

漢字以外、非漢字についても、⇨や↗や⇄のような矢印類や白抜きの 〖〗や ⦅⦆ なども入力できるようになります。テキストのメモをとるのに便利な蛇の目 ◉、ビュレット •、チェックマーク ✓ などもあります。また、日本語のローマ字に用いる â や ā のような文字、フランス語に用いる é や ç 、ドイツ語の ä や ö や ß などの文字も大文字のアルファベットから変換できます。フランス語の引用符のギュメ « » も不等号の組み合わせから変換できます。

その他、『プログラマのための文字コード技術入門』の第3章で説明したような様々な文字が入力できるようになっています。ATOKをお使いの方は是非お試しください。

一度JIS第3・第4水準を自由に扱える環境に慣れると、第1・第2水準しか扱えないレガシーな環境はまるで手足を縛られているような不自由さを感じます。この辞書を使ってATOKでも、新JIS漢字の自由な世界を味わってほしいと思います。

関東地方で日曜の昼に再放送しているテレビ東京の「なんでも鑑定団」を見ていたところ、画面にJIS第4水準漢字が出てきました。

鑑定品の紹介の中で、秦の始皇帝の姓名として「嬴政」(えいせい)と書かれていたのです。この「嬴」という字はJIS X 0213の第4水準、面区点2-05-84にあります。

確かに始皇帝の姓は嬴で名は政なのですが、皇帝になる前の始皇帝は秦王政と記されることが多く、嬴政と記すことはあまり一般的でないように思います。どういう慣習になっているのでしょうか。

ちなみにこのときの番組の「依頼品」は、始皇帝陵の兵馬俑。そんなものを日本の民間人が持っていることがあり得るのかといぶかしんで見ていたら、案の定ニセモノでした。

結論からいってしまうと、これからの文字コードの使用は下記のように考えるのがいいと思います。なおここでは、ファイルなどに使う外部コードのことを前提とします。

  • デフォルトではUTF-8を使う
  • ただし、SJISの符号体系が必要な場合はShift_JIS-2004を使う
  • ただし、EUCの符号体系が必要な場合はEUC-JIS-2004を使う

肝心な点は、いつでもJIS X 0213の文字をサポートする符号化方式を使うということです。現在はJIS X 0208の文字は、どこでも使えることが保証されるような、ベースラインとしての役割を果しています。しかしそれでは文字が足りないので、そのベースラインをJIS X 0213の範囲に拡大するということです。こうすることには大きな意味があります。

符号化方式としてデフォルトでUTF-8を用いるメリットは、国際対応がしやすくなることです。ソフトウェアを開発しました、これを海外でも使えるようにしたい、というときに、はじめからUTF-8に対応していれば、考えることをひとつ減らせるわけです。

Twitterを考えてみましょう。世界の様々な人が使うサイトです。このサイトがLatin-1やShift_JISで作られていたとしたら、世界展開に障害が出てくるのは明らかです。UTF-8がいいというのはそういうことです。私のタイムラインには日本の文字だけでなく、チベット文字や中国簡体字がしばしば流れてきます。そうした様々な文字を一度に扱うにはUTF-8がいいというのは異論のないところでしょう。

といっても、世の中のソフトウェアが全てそういう種類のものばかりだというわけではありません。JIS X 0208の時代から、限定された場所でのみ長い期間使われ続けていて、細々と保守されているようなソフトウェアもあるわけです。そういうものに、何がなんでも手間をかけてUTF-8に変えろというのは合理性がない。

そういう場面では、JIS X 0213の符号化方式が有用です。従来のJIS X 0208では文字が足りないのは明白ですが、しかしUnicodeに変えるのはおおげさすぎるしあまり意味がない、というときは、JIS X 0213を使えばいいのです。

例えば、プログラムがShift_JISの符号構造を前提にして動いていて、それを変えたくない、というときには、Shift_JIS-2004を採用すれば、最小限の変更で、足りない文字を大幅に補うことができます。同様に、EUCの場合はEUC-JIS-2004を採用すればいいのです。

今後、SJISとかEUCとかいうときには、それぞれShift_JIS-2004、EUC-JIS-2004をデフォルトにするのが良いと私は思います。そうでないと文字が足りないからです。小学校3年でJIS X 0208にない文字を習うと以前書きました。電子書籍にもJIS X 0213の文字が必要だということも以前論じました。今後は、JIS X 0213の文字に対応した符号化方式を常に使うべきでしょう。

該当する人はあまりいないでしょうが、1バイトコードとの混在なしで7ビットのJIS X 0208を2バイト固定で使っていた場合には、JIS X 0213の漢字用8ビット符号というのが有用です。これはX0213の漢字集合1面をGLに、2面をGRに置いたもので、JIS X 0213の全文字を2バイトで表現できるものです。データフォーマットの中に2バイト固定でJIS X 0208の文字を入れていたケースでは、こういう方式を使うことでJIS X 0213対応ができるのです。

かつて、「子育てしない男を父とは呼ばない」というテレビCMがありました。これからのキャッチフレーズは、「JIS X 0213に対応しないソフトウェアは、日本語対応とは呼ばない」です。

ITproの記事「中国企業を信頼して任せることが重要 - 中国企業が明かす 日本製ソフト採用のワケ」の冒頭に、JIS第3水準漢字を外字扱いしている箇所がありました。

記事のリードの先頭に、「天津柏鋭○科技(BRAV:○は「三」を「|」で縦に突きさした字)は、」とあります。『「三」を「|」で縦に突きさした字』とは、「丰」のことでしょう。この字は、JIS X 0213の第3水準、1面14区6点にあります。

ブイキューブのプレスリリースでは、この社名「天津柏鋭丰科技」を全部漢字で表しています。このプレスリリースはUTF-8で符号化されていて、「丰」の字もHTMLの文字参照などでなくこの文字そのものとして符号化されています。

この「丰」という字は、フウ、フ、ホウ等と読むようです。意味としては、「豊かに茂るさま」「ようす。姿」といったものが挙げられています(学研「漢字源」)。

JIS漢字字典でこの字をひくと、日本語文脈の用例も多くあることがうかがえます。横光利一や二葉亭四迷の作品に出現し、また人名としてはシゲル、シゲ、タカ、ヨシなど複数の読みの例があるようです。

こうした文字は、まさに、日本で日常的に使われる文字コードに収められていて然るべきといえるでしょう。JIS X 0213やUnicodeにはあるので、それらの文字コードを使えば良いわけです。つまり、Shift_JIS-2004やUTF-8ならOKということです。

英字紙Japan Timesのサイトの英語の記事に、JIS X 0213の文字が使われている箇所を見付けました。

Shōgi showdown for supercomputer」という記事のタイトルや本文の中に、将棋を指す言葉として shōgi と書かれています。この ō は、JIS X 0208になく、JIS X 0213で追加された文字なのです。1面9区94点にあります。

これは、日本語の単語をヘボン式ローマ字で表す、ごくまっとうな表記です。このまっとうな表記は、JIS X 0208では (ということは、Shift_JISやISO-2022-JPでは) 符号化できません。JIS X 0213やUnicodeの符号化方式、つまり、Shift_JIS-2004やUTF-8などを使う必要があります。

そういえば英語版のWikipediaでも、日本の文物を表す記事には頻繁に ō や ū といったダイアクリティカルマーク付きの文字が使われています。

これもれっきとした日本語表記ですから、日本で使われる文字コードはこうした文字をきちんと扱える必要があります。それでJIS X 0213にはダイアクリティカルマーク付きのアルファベットも入っているわけです。ですから、これからは、JIS X 0208でなくJIS X 0213やUnicodeの符号化方式を使うのが、日本語ローマ字の使用のためにもいいのです。

広告