2012年1月アーカイブ

いまだに、広く使われている日本語入力環境は、JIS X 0208の第1・第2水準漢字に制限されていることが多いと思います。第3・第4水準を追加するJIS X 0213の制定から10年も経つにもかかわらずです。

現代日本で使われていながらJIS X 0208に入っていなかった文字を収録したJIS X 0213という優れた規格の利点を活かすには、その文字を普通に入力できる漢字変換辞書を持つことが重要です。

そこで、第3第4水準辞書を使いましょう。

ここで「第3第4水準辞書」と呼ぶものは、単に単漢字変換などで入力できるということにとどまらないものです。具体的には、下記の条件を満たすことが必要です。

  • 第3・第4水準漢字が語彙として入力できること。例えば、「噶」という字が単に単漢字変換で入力できるだけでなく、「吐噶喇列島」といった語として収録されている。
  • 漢字だけでなく、JIS X 0213で追加された非漢字についても入力を可能とする。例えば、ローマ字の ā や ô や ç や é といった文字や、◉や♨や〽のような記号類なども。
  • JIS X 0213の11,233文字について、広範に、できれば網羅的に対応すること。

こうした入力を可能にする第3第4水準辞書の例として、仮名漢字変換プログラムの種類に応じて3つここでは示します。

上には入力プログラムの有名と思われる順に挙げましたが、実際には、SKK用の辞書が元となって、Anthy用とATOK用とが生成されています。

これらの辞書については、当ブログでも時々紹介してきました。ご参考まで。

第3第4水準辞書によって文字入力環境の改善を実現する人が増えることを願ってやみません。

当サイトのメモのセクションに「文字コードを理解するための参考文献」というのを付け加えました。文字コードを理解するために役立つ本を私なりにまとめて紹介文を付けたものです。

私の視点から厳選しているので、「あの本がないじゃないか」というような苦情は受け付けません。(単に、網羅するには私が面倒くさがり屋すぎるだけかもしれません)

のちのち、気が向いたら、本を追加したりするかもしれません。

震災被災地支援プログラム2012を実施します。

拙著『プログラマのための文字コード技術入門』から得られる著者の取り分から10〜20%程度を、東日本大震災の被災地支援のために寄付します。去年(2011年)も行いましたが、今年2012年も継続することとします。

去年は岩手県と宮城県の復興事業に寄付しました。今年は福島県に同様の寄付をする予定です。

本書が売れれば売れるだけ寄付金が増えます。どうぞよろしくお願いします。

子グマが元気

| コメント(0) | トラックバック(0)

年末年始、また北海道に行ってきました。

今回特筆すべきは、札幌・円山動物園のホッキョクグマの1歳の子供「アイラ」が雪の上でとても元気に遊び回っていたことです。

去年、夏の時期に見たときは、あまり活発に動いていなくて、まあ人間の都合に合わせて動いてくれるわけじゃないからしようがないか......と思っていました。しかし今回は、とても元気に動いていました。なにしろホッキョクグマのことですから、雪のある寒い季節の方が元気なのでしょうか。

Young polar bear with toys / 大事なおもちゃ

雪の上でゴロゴロ転げ回りながら遊んでいました。このボールとポリタンクがお気に入りのおもちゃのようです。

Young polar bear / ホッキョクグマの子供

鼻に雪がついてもなんのその。

Standing young polar bear / 二本足で立つ

二本足で立って遊んでいます。

Polar bear's gymnastics / 新体操

新体操?

Ready to slide / すべりこみ準備

すべりこみ準備。

Sliding into a ball / すべりこみ

ズザー!

My favorite ball / ボール大好き

やっぱりこのボールが大好き。

という感じで、ずっと見ていても飽きない元気さでした。

ホッキョクグマ以外の写真もひとつ。

Envy / うらやむ

シンリンオオカミの親子です。骨をかじっているのは父親、横で見ている2匹はその子供。うらやましそうに眺めていました。

雪のある動物園は、寒い地域に棲む動物が元気です。一度足を運んでみてはどうでしょうか。

以前使っていた携帯電話、ドコモから発売されていたF504iのフォントについて。機械自体は既に手元にないのですが、覚えているうちに書き留めておきましょう。

記憶に頼って書くと、39区77点の字体が「剥」でなく「剝」でした。また、18区10点は「鴎」でなく「鷗」だったように思います。

この機種を私が買ったのは2002年のことなので、その辺りに発売された機種でしょう。この機種のフォントは、JIS X 0208の例示字形の細かいところには拘泥せず、設計者が良いと考えた形に作ったのでしょう。それはそれで妥当な方針だと思います。文字コード規格がフォント設計の細部まで決めることでないことを、設計者はきちんと理解していたのかもしれません。

ただ、18区10点について互換包摂を適用するなら、どの字体を採用したのかを文書で明示しなければならないことに97JISではなっているのですが、この携帯電話がそういう措置をとっていたかどうかは分かりません。

(なお、97JISの「鴎-鷗」という互換包摂は、97JISの包摂規準としては例外的なものなので、97JISの包摂規準一般の例として出すにはあまり適当とは思われません)

他人の意見に振り回されてばかりいる人がいる。誰それさんが何と言っていた。何という文章に何と書いてあった。他人の意見、時流に乗っていると思われる意見を自分の意見にする人である。こういう人は世間の流行に実に流されやすい。というか、流行の言説以外に自分の意見がないという方が正確であろう。

以前『「みんなの意見」は案外正しい』、という本があって、その内容を誤解した人がしきりに「みんなの意見」という言葉を振りかざしていた時期があった。みんなの意見を集めてきて意思決定する仕組みが必要だというのである。そんなのは流行の言説に付和雷同する人の発想である。実はくだんの本で言っているのはむしろ逆の話であって、他人の意見や世間の流行とは独立して考える人の判断を多数集めると不思議なことに正解に近付く、ということを言っていたものである (のだそうだ。私はこの本を読んでいない)。だから、流行に付和雷同する人を集めるのはかえって真実から遠ざかるということになる。大体が、「みんなの意見」が正しいのだと言われて何の危機感も覚えない人というのはどこかおかしい。みんなの意見に乗っかる以外のことを何もしていない人であろう。ちなみにこういう人は、みんながくだんの本を忘れてくると、自分自身もそれにあわせて「みんなの意見」と言い出すのをやめていったようである。

みんなの意見ばかり気にするのは、自分の中に大切なものがないからである。大切な価値観、大きく言えば倫理というようなものがあれば、それが思考の軸となる。自分の価値観がなければ、他人の意見を集めてくるくらいしかすることがない。

なら自分の価値観がありさえすればいいかといえば、そういうものでもない。間違った価値観、信念を持ち続けていたのでは不毛であり有害である。9・11テロの実行犯は強固な価値観を持っていたのだろう。自分の中にある価値観が、普遍的に良いとされるものであるかどうかをよく吟味して適宜修正しなければならない。

当ブログの初期の記事、「やなせたかしの正義」は人気がある。これは、第2次大戦の敗戦を通じて世間的にいわれる正義などというのが実に頼りないものであることを痛感したやなせ氏が、時代や国を超えた普遍的な正義を自分なりに考えた話である。流行の言説を追いかけるのとは真逆の話だ。

小手先のテクニックでなしに、何が本当に大切なのか、なぜそれが大切なのか、という問いを自分に向けて発し続ける必要がある。何が大切かという価値観を作るのは教養であろう。いま大変にないがしろにされている分野である。

流行の言説に振り回されずに大切なことを考えるのには、Twitterのようなものは不向きであろう。騒がしい情報を遮断して、人の少ないところにいた方が、大切なことを考えるのには向いているかもしれない。

壱岐の酒 (焼酎) に𨕫尾(しめのお)というのがあって、この「𨕫」というのがJIS X 0213で追加された漢字だということは前から知っていました。この字は第4水準、面区点番号2-89-90にあります。SKKのJIS第3・第4水準漢字辞書では「しめのお」から「𨕫尾」に変換できます。ウェブを「しめのお」といった言葉で検索すると、酒のラベルにこの字が使われているのが確認できます。

先日東京外国語大学で開催された「字体規範と異体の歴史」シンポジウムで、早稲田大学の笹原先生の発表の中で軽くこの字についても触れていて、壱岐の地名 (や人名? 記憶不確か) にあるとおっしゃっていました。

地名にあるのは知らなかったので、ウェブを検索してみると、たしかにあるようです。稀少地名漢字リストには壱岐の地名として「𨕫ノ尾」というのを挙げています (ただし参考URLはリンク切れ)。

人名にあるのかどうかは手がかりが見付かっていません。(JIS漢字字典は「𨕫野」という名字をあげています)

ちなみにこの字は、UnicodeではBMPでなく面02の拡張Bにあります。BMP外の文字の例として「𠮟」みたいにBMP内の字の異体字やデザイン差のようなのを出すのはイマイチだと個人的には思っているので、この字はBMP外の例としても使えるなと思います。

テレビ朝日のクイズ番組「Qさま!!」を見ていたら、画面に第3水準漢字が出てきました。

黄檗宗の開祖、「隠元(いんげん)隆琦(りゅうき)」が正解の問題でした。この「琦」という漢字はJIS第3水準、面区点番号1-88-06にあります。

この番組では以前にも第3・第4水準漢字が出てきたことがあります (「テレビで見た第4水準漢字」)。クイズ番組にもJIS X 0213の文字は必要であることが分かります。

今後は常に、JIS X 0213の文字に対応した文字コードを使うべきだといえます。そうした文字コードには、UTF-8やShift_JIS-2004、EUC-JIS-2004があります。デフォルトではUTF-8でいいでしょうが、シフトJISが必要な場面ではShift_JIS-2004を、EUCが必要な場面ではEUC-JIS-2004を使えばいいということです。このことは以前の記事「これからの文字コード」でも論じました。

広告