2010年11月アーカイブ

改定常用漢字表がこの11月30日に内閣告示されました。それと同時に、経済産業省からは、「改定常用漢字表に対するJIS漢字コード規格の対応状況について」という発表が出ています。常用漢字表の改定に文字コードがどう対応しているかをまとめた資料です。

詳しくはリンク先の資料、特に「改定常用漢字表に関する規格検討報告書」というPDFを読むと良いです。

私なりに超簡略化していうと、文字コード的には、

  • JIS X 0213を使っていればオッケー。
  • JIS X 0208は大体いいけど一部の文字に字体の問題がある、

というところです。

JIS X 0213の符号化方式に対応したソフトウェアでは改定常用漢字表の文字は何の問題もなく扱えます。また、JIS X 0213の例示字形に則って設計されたフォントは字体上の問題もありません。

JIS X 0208にしか対応していない場合に文字コード的に問題になるのは何かというと、「塡」「剝」「頰」「𠮟」の4文字です。これらが、JIS X 0208ではそれぞれ「填」「剥」「頬」「叱」という字体になってしまう(「互換包摂」まで適用すればX0208の包摂規準で救済できるけど、JIS X 0213ができてから10年も経っているのに互換包摂というのも残念な感じが強い)。改定常用漢字表ではこれらX0208の方の字体でもいいことになってはいるのですが、表に掲出されている字体としては第3水準の方の「塡」「剝」「頰」「𠮟」であるわけです。

「𠮟」については、『プログラマのための文字コード技術入門』にも書いたとおり、Unicodeで表したときにBMPでなく面02の文字であるという点が、多分いろいろな問題を依然として引き起こすと思います。UTF-8として3バイトまでしか対応していないMySQL 5.1とかを使っているとその時点で駄目です。そういう問題があることが意識されてかどうかは知らないけれど、改定常用漢字表では「𠮟」と「叱」は「特定の字種に適用されるデザイン差」ということになっています。他の字種に一般化することのできない個別のデザイン差ということです。この種のデザイン差は5字種について挙げられているのですが、中でも「𠮟・叱」については、「本来別字とされるが、その使用実態から見て、異体の関係にある同字と認めることができる」というただし書きまである念の入れようです。

経済産業省によると、「常用漢字表の改定を契機に今後一層JIS X0213が普及することが期待されます」だそうです。そうなると本当にいいですね。それはひとり常用漢字表のためだけではありません。先日述べた仏教の用語の件もあるし、アイヌ語の件もあるし、地名の件もあるし、その他このブログで度々取り上げている様々な文字への対応も含めてのことです。

旅行で奈良に行ってきました。

奈良には見所がいっぱいありますが、中でも興福寺の国宝館は圧巻でした。奈良時代や鎌倉時代の素晴らしい仏像を見ることができます。東京の博物館に展示されて話題になった阿修羅像を始めとして、いきいきとした表情豊かな、しかも1300年も前に作られたものが、いくつも見られるのです。

そんな素晴らしい仏教美術に囲まれた中でも私の目は、展示の説明にあったJIS第3水準漢字を見逃しませんでした。気が付いただけで2つありました。ひとつは、釈尊の弟子の「目犍連」の「犍」(1-87-71)、それに「羅睺羅」の「睺」(1-88-88)です。

これらの漢字は、興福寺のウェブサイトの文化財一覧のページでは画像に作ってあります。文化財一覧のページで、この2つ以外で同様に画像にしている字には、「淄州大師画像」の「淄」(1-86-81)、「緑釉塼」の「塼」(1-15-59)がありました。これらはいずれもJIS第3水準漢字です。このウェブサイトはShift_JISで符号化されています。Shift_JISの上位互換であるShift_JIS-2004を使うか、あるいはUTF-8を使えば、画像でなく文字として扱うことができます。

もちろんこれらの漢字は、興福寺にだけ関係のある文字ではありません。仏教を語るうえではJIS第3・第4水準漢字は欠かせないということでしょう。これからはJIS第3・第4水準漢字を符号化できる文字コードを使うことが、仏教文化のためにも必要だといえます。

iPhoneやiPod Touchに最近配信されたiOS 4.2では、チベット語の扱いが改善しました。

チベット語はチベット文字で書き表します。チベット文字はインド系の文字の一種であり、ベースとなる文字の周囲に記号を付ける、複雑な構造をとります。Unicodeでチベット文字を扱うには文字合成の処理が必須です。

以前のiOSでは確かチベット文字の合成ができていなかったと思うのですが、4.2ではきちんと合成されて表示されます。

ソフトウェアキーボードも用意されています。設定画面から、各国語のキーボードを追加する機能の中に、チベット語もリストアップされているのです。チベット語を選んで追加してやると、チベット文字の入力が可能になります。

UTF-8で符号化されたチベット語のウェブページとしては、ダライ・ラマ14世のチベット語のホームページがあります。チベット文字の表示を試しに見てみるのに使えるでしょう (読解できるかどうかは別にして!)。また、日本語のブログ「チベットNOW@ルンタ」には、時折チベット文字が(HTMLの文字参照の形で)使われることがあります。

前にコスモスを見に行った、東京・立川市の昭和記念公園に、今度はイチョウを見に行ってきました。小春日和のあたたかな日でした。

Entrance of the Shōwa Kinen Park / 昭和記念公園入口

公園の入口。まさに、秋! という感じの光景です。

Canal and ginkgo / 水路と銀杏

こんな風に水路沿いに立派なイチョウ並木が続いています。行った日には、葉が盛んに落ちてきていました。

Road of ginkgo

道はさながらイチョウの絨毯。

Fountain / 噴水

水路の端は噴水。ここからイチョウ並木がよく見えます。

Ginkgo leaves in a row

イチョウの葉の列。

Pond

噴水からさらに先へと歩いて行くと、大きな池があります。この池の周囲は見事に秋模様。秋を満喫できます。

Red leaves at water / 水辺の紅葉

もみじはだいぶ終わりかかってきている木もありましたが、この木はまだ綺麗でした。

Red and green

緑色と赤が混じったこんな色あいの木も。

Art in a park

園内にはアートも散在しています。

Ginkgo avenue / 銀杏並木

先の水路とはまた別の場所にあるイチョウ並木。

Three leaves / 3枚

秋の終わりを思わせる、散らずに残った葉。

IVD更新

| コメント(0) | トラックバック(0)

最近、Unicodeのいわゆる異体字セレクタの新しいグリフコレクションが登録されました。今までは、Adobe-Japan1というコレクションが登録されていたのですが、今回それに加えて汎用電子と呼ばれる日本の政府関係から提案されていたコレクションが追加されました。追加されたコレクションは、異体字データベース (Ideographic Variation Database; IVD) に累積的に追加されています。

IVDの文字表をちょっと見ると分かることですが、Adobe-Japan1と汎用電子とで、どう見ても同じようなグリフに対して別々のIVS (Ideographic Variation Sequence; IVS) が割り当てられています。例えば、「与」(U+4E0E)を見ると、Adobe-Japan1は長い横線の突き出ているグリフと突き出ていないグリフとにそれぞれ別のIVSを割り当てていますが(それぞれU+E0100とU+E0101)、同様に汎用電子も同じグリフ (としか見えない) に、それぞれU+E0102とU+E0103を割り当てています。

これは、IVDの技術仕様 (UTS #37)において "The Ideographic Variation database ensures that a given variation sequence is used in at most one collection" (IVDはあるIVSが高々1つのコレクションにおいて使われることを保証する。引用者訳) と書かれているのでそんなものかと思うのですが、これがどう運用されることを念頭に置いているのかがいまひとつ分かりません。

考えられるのは、IVSを利用する場合はどのコレクションに従ったIVSを使うのかを事前に決めておくということです。自分はAdobe-Japan1を使うんだ。あるいは、汎用電子を使うんだ。ということを予め決定しておく。IVD全体ではなくひとつのコレクションのみを相手にするということです。UTS #37を読むとそういう前提があるような雰囲気が漂っています。そうでないと、「『与』の横線が突き出ていないグリフ」を指定しようとしたときにどのIVSを使えば良いのかが決定できないことになってしまいます。

そうすると、次の疑問として、「基本的にAdobe-Japan1を使うつもりなんだけど汎用電子に良さそうなグリフがあったらそっちも使いたい」というような運用はありやなしや、ということが出てきます。そういうことについてUTS #37は何も言っていないのですが、まあ、お好きにどうぞということなのかもしれません。

IVSは、文字の符号化というよりも字形出力の微調整のようなものという位置付けであることが、今回のIVD改訂ではっきりしたように思います。UTS #37にも "variation selectors are default ignorable" と書いてあるので、テキスト処理上は異体字セレクタを無視してベースのCJK統合漢字だけで処理され得ることになります。そうでないと検索などで不都合が生じそうです。

もっとも、IVSを何も意識しないプログラムは、IVSを無視するなんていう処理が入らないので、もし本当にIVSを使おうとしたらこの先いろいろトラブルがありそうだなあという予感がします。

IVSは全般に、どのように運用されるべきかが曖昧な感じがします。あと、登録されているコレクションが今のところ日本関係のものしかないのだから、仕様書の日本語版も提供してくれればいいのにという気もちょっとします。

日経BP社のサイトの「好感をもたれる敬語入門」という連載記事に、「「させていただく」の多用は耳障り」という回があって興味深く読みました。

「させていただきます」が世の中に妙に増えてきたのは、私の印象では十数年前からだと記憶しています。大学で学生が「発表させていただきます」と言っていたのを変な感じで聞いていた覚えがあるからです。

この日経BPの記事は「させていただく」という表現を詳しく分析していて、腑に落ちる解説になっています。是非読んでみるといいと思います。

「させていただく」というのは単なる謙譲語ではなくて、誰かに許可してもらう、あるいは誰かのおかげで自分が何かをする、そのことに感謝する気持ちを表すのだといいます。

そういえば、スポーツ選手がインタビューにこたえて「頑張らせていただきます」などと言っていることがありますが、スポーツ選手が頑張るのは誰かの許可を得なければいけないことではないのだから、この言い方はおかしいということになります。

この記事でも触れられていますが、世の中に溢れる「〜させていただきます」は、「〜いたします」で置き換えられることが多いように思います。そして、その方が好ましい言い方であるように私には思えます。

善光寺参り

| コメント(0) | トラックバック(0)

週末、長野の善光寺に行ってきました。

Approach to Zenkoji temple / 善光寺の参
道

多くの人が訪れていました。七五三だからというのもあったようです。写真には写っていませんが、着物を着た子供も多く見かけました。

Main building of Zenkoji temple / 善光寺本堂

善光寺の本堂。

Red leaves

Red leaves

紅葉が綺麗でした。

Face

善光寺近くの喫茶店で見かけたユーモラスな顔。

長野市には初めて行きましたが、落ち着いた感じのいい街だと思いました。

先週まで川崎市民ミュージアムで開催されていた、「アイヌ 美を求める心」という、アイヌの工芸品の展示を見てきました。

アイヌの衣類や生活用品、工芸品等の、美術的な側面をとりあげた展示です。

いかにもアイヌらしい模様の衣類をはじめ、生活に密着した品物や、儀式のときに使う物、本州からもたらされたものを利用した物、など、様々な展示物がありました。

展示品には片仮名書きのアイヌ語で名称が記されています。したがって、この展示はJIS X 0213の必要性が強く認識できる展示でもありました。

この企画展のチラシから一部抜粋した画像を掲げましょう。これだけでも一端が伺えるというものです。

アイヌ工芸展のチラシの一部

この小さな画像だけでも、異なり字数で10字、総計12文字も、JIS X 0208になくJIS X 0213で追加された文字があります (丸付き数字も数えています)。なお、④のところに小書きの「ㇵ」があるのが目を引きます。これはアイヌ語の中でも樺太方言の表記にしか使われない字です。この展示には樺太アイヌの物も多く出ていたので、あまり見かけないこうした字も出てくるわけです。

この展示で印象的だったことの一つに、現代のアイヌ工芸の作品があります。21世紀になった今でも、アイヌ工芸は受け継がれて、新たな作品が産み出されているのです。その中にはアイヌの伝統的なものもあれば、新たな発想で作られた必ずしも伝統的には見えないものもあるといいます。また、北海道ではアイヌ語のラジオ講座が放送されるなど、アイヌ文化を継承する動きがあることが紹介されていました。アイヌ語は母語話者が消滅の危機に瀕している一方で、それを受け継ぐ努力もなされているのです。

そうしたことから、『プログラマのための文字コード技術入門』の著者として考えることは、アイヌ語は日本において現代そして未来に生きる言語であり、それを表記するための文字は現代・未来の日本に欠かせないものだということです。JIS X 0213がアイヌ語表記用の片仮名を収録したことは100%正しい判断であり、画期的な功績である。そしてインプリメンタはその判断を正しく理解し、アイヌ語用の文字を扱える文字コードを実装しなければならない。アイヌ語に敵対的な間違った実装であるWindows-31J (CP932)を排し、UTF-8、Shift_JIS-2004、EUC-JIS-2004といったAinu-friendlyな文字コードを使うことは我々の義務である。ただしUnicodeの場合には結合文字の処理がちゃんとできなきゃ駄目(なぜなら、「ㇷ゚」の問題があるから)。そういうことなのです。

新幹線の威力

| コメント(0) | トラックバック(0)

東北新幹線が新青森まで延びます。これによって、東京―新青森は3時間20分で、今後「はやぶさ」が導入されると3時間10分で結ばれるのだそうです。

これがどれくらい速いかというと、北海道でいえば、札幌から特急で函館に行くのより少し速いくらいの時間です。札幌を出て函館に着くまでの時間で、東京から青森まで行ってしまうわけです。やはり新幹線は速い。

北海道出身の私としては、早く北海道新幹線ができてほしい、それも、札幌まで延伸してほしいと、強く思います。

よく考えてみれば、札幌というのは東京以北で最大の都市である。全国で見ても、第5位の人口を持つ都市である。そういう国内有数の大都市に新幹線が通っていないうちは、日本の新幹線は甚しく未完成のままだと思うんですね。

でも本州の人はそうは認識していない。北海道というと全部「北の国から」の世界だと思っている。札幌が190万もの人口を抱えているなんて知らない。札幌から修学旅行で青森に行ったら、若いバスガイドさんが「皆さんの中で牛を飼っているお宅はどれくらいありますか?」とのたまって我々生徒が爆笑したことは今でも忘れられません。地理的に近い青森でさえそういう認識なんです。

それはさておき、北海道新幹線ができたら、北日本間の交流が進むことは間違いがないでしょう。現状では、北海道と東北の間は距離的には比較的近いにもかかわらず、函館など一部を除けば飛行機で行くしかない。今まで飛行機で行くしかない札幌と仙台の間が新幹線で行けるようになれば互いにぐっと身近になる。そうすれば、北日本全体の活性化につながると思います。

田村志津枝『初めて台湾語をパソコンに喋らせた男』(現代書館)を読みました。

今日、台湾で国語とされている言語は中国語(北京語)です。それを反映して、台湾旅行のガイドブックには中国語の挨拶や旅のフレーズなどが載っているわけです。

が、地元の人々が日常話す言語としては、台湾語というものがあり、これは北京語ではなく福建省の方の閩南語がベースになっています。何百年も前に福建の方から渡ってきた人々の子孫にとってはこの台湾語が母語であり、中国語はいわば外国語のように覚えるものであるようです。

その台湾語は、文字で書くための決まりがなく、不便をしている。中国語に押されて公用語の地位も得られない台湾語。そんな台湾語を守り伝えるために、台湾人アロンは得意のコンピュータを使って台湾語を学び活用するためのソフトウェアの開発に着手します。

本書は、アロンと台湾語のかかわり、コンピュータに夢中になり、困難なアメリカ留学をはたしてまでのめりこんでいく様などを、台湾事情を織り交ぜながら活き活きと描いています。

台湾事情とさらっと書いてしまいましたが、日本統治時代が終わったと思ったら中華民国に併合されて二・二八事件が起こったりと、外来の支配者の都合に翻弄される台湾の事情とは、そこに生きる人々にとって決して容易なものではありません。元々住んでいた所謂本省人と戦後に中国から渡ってきた外省人との関係など、日本からは想像しづらい機微の一端が本書には伺えます。

言葉に対する思いとコンピュータにかける情熱が好ましく伝わってくる、興味深い読み物でした。

月配列の弱点

| コメント(0) | トラックバック(0)

前に書いたように私は月配列という仮名配列を使っています。わざわざこんなマイナーな配列を使うぐらいだから私はこの配列の良さを高く買っているわけです。が、欠点が全く無いというわけではありません。

月配列を使い出すと遅かれ早かれ気付くことですが、一部の拗音の入力に、ローマ字入力以上の打鍵数が必要になることがあります。

例えば、「びゅ」とローマ字で打つにはbyuの3打鍵ですみますが、月配列では「ひ」に2打鍵、「゛」に1打鍵、「ゅ」に2打鍵の、合計5打鍵が必要になります。同様に、「びゃ」「ぴゅ」なども5打鍵必要です。拗音全部というわけではありません。「しょ」は2打鍵で済むのでローマ字入力より少なく済みます。「にゃ」は3打鍵なのでローマ字と同じ打鍵数です。

月配列にのめり込むあまり、自分で改良版の仮名配列を作る人というのが少なからずいて、インターネットで「マイ月配列」を公開していたりします。そういう配列の中には、こうした弱点を嫌って、拗音もより少ない打鍵数で打てるようにしたものもあります。中指だけでなく薬指にもシフトを割り当てるようなものです。

ここは好き嫌いが分かれるところかもしれませんが、私自身は、オリジナルの月配列のままで構わないと思います。というのは、こうしたケースは日常の入力作業の中で多く出るパターンではないからです。たまにしか現れない組み合わせに打鍵数がかかってもあまり問題でないということです。「びゅ」などの打鍵数を減らそうとすると、代償として、1打鍵で入力できる仮名が減ってしまいます。そうまでする必要はないというのが私の考えです。

「びゅ」を含む日本語としては、「誤謬」「謬見」など「謬」のつく語、擬音語「びゅうびゅう」など、あまりありません。外来語になると、「ビューティフル」「ビューワ」「インタビュー」「デビュー」「プレビュー」などがあり、和語・漢語に比べると、珍しくない感じです。ひょっとすると月配列は外来語に不利なのではないかという印象をちょっと持ちましたが、きちんと調べてはいません。どうなんでしょう。

このところ自転車関係の記事の多い毎日新聞がまた興味深い記事を掲載しています。

11歳の少年が運転する自転車が68歳女性の自転車に衝突して胸の骨にひびの入る怪我を負わせたという話です。

ここで私が注目したのは、事故の起こった状況です。リンク先の記事には分かりやすい図入りで解説されているので是非見てほしいです。ここには、自転車の歩道走行が危険である理由の一つが見てとれるように思います。

事故を起こした自転車は歩道を走っていたのですが、途中で駐車車両(自動車)と向かってくる歩行者に道をさえぎられ、避けるために車道に出てしまったのです。そこに、車道の左側を正しく走行してきた68歳女性の自転車が走ってきて、衝突してしまったということです。

この一件から読み取れることは、歩道を走っている自転車が何らかの理由で歩道を走れなくなると、ただちに車道の右側走行(逆走)に転じてしまうということです(車道右側の歩道を走っていた場合)。本件のように車などによって歩道がふさがれていたというケースもあるでしょうし、歩道が途中で途切れてしまっていることだってあります。そういうとき、歩道を走っていた自転車は一転、車道の逆走という最悪の状況に置かれてしまう。

これは、自転車が歩道を走ると危険である理由の一つだといえるでしょう。自転車が歩道を走るのは歩行者を危険にさらすだけでなく、自転車自身にとっても危険の種となるのです。

車道の左側を正しく走っていれば、このような事故にはつながりませんでした。もし歩道を走っていたとしても、車道の左側の歩道であれば、車道に出る必要があったときにも逆走にならずに済むはずでした。車道右側の歩道を走っていたのが潜在的な危険であったわけです。このときの解決策としては、(逆走になってしまう)車道には出ずに、一旦自転車を止めて歩行者をやり過ごすしかなかったでしょう。

記事にこうあります。「右側走行が道路交通法に違反していることを女性〔少年の母親: 引用者注〕自身、知らなかった。車道走行が原則で、歩道は例外ということも」。自転車の走行ルールを知らずに走っている人が大変多く、そのことが現実に事故をもたらしています。学校や自転車販売店などで、自転車のルールを周知徹底することが急務であると思います。これは「マナー」以前の「規則」の問題です。

ウェブのニュースサイトを見ていたら、台湾人名のJIS第3・第4水準漢字が立て続けに出てきました。

まずはゴルフのニュース。MSN産経ニュース「【女子ゴルフ】申ジエが単独首位 ミズノ・クラシック」という記事に、「曽雅●(=女へんに尼)(台湾)」という人名がありました。

「女へんに尼」とは、JIS第4水準、面区点番号2-5-44の「妮」でしょう。

次は、台北花博というイベントについてのニュース。同じくMSN産経ニュースの「牡丹、胡蝶蘭...3300種の花が競演 台北花博が開幕 来年4月まで」という記事に、「●(=赤におおざと)龍斌・台北市長」という人名がありました。

「赤におおざと」とは、JIS第3水準、面区点番号1-92-70の「郝」でしょう。この字は、三国志登場人物の郝昭(かくしょう)にも使われます。

これらの字は、JIS X 0213にあるので、Shift_JIS-2004やEUC-JIS-2004なら符号化できます。また、JIS X 0213の文字を全部含んでいるUnicodeのUTF-8やUTF-16でも符号化することができます。

毎日新聞のサイトに、「デンマーク環境相:東京の自転車事情を視察「教育が重要」」という記事が載っていました。興味深い記事です。毎日新聞は自転車の記事をこのところしばしば載せています。

短い文章なのでぜひ読んでほしいと思います。

感想としては、まず、環境大臣自らが自転車で車道を走って視察しているのが偉いと思います。選挙のときだけ庶民イメージをアピールするのにママチャリで歩道を走っている国会議員候補がありますが、ああいうのとは勿論全然違う。「車が近づいても運転手と目を合わせれば(接触しないよう)気をつけてくれたので安全に運転できた」というコメントは、自分で自転車に乗っている人でないと出てこないものです。

また、注目してほしいのがエレマン環境相の次の言葉。

「専用通路の整備が進んだ地域では自転車が2割増え、車が1割減った。排ガスが減るだけでなく、自転車に乗って体を動かすのは健康によく、医療費削減につながり政府予算も減る」

これは自転車政策のメリットを端的に表しています。行政に携わる人には是非理解してほしいところ。

また、最後にさりげなく「日本人はゴミを捨てないなど自分を律する意識が高い。車を使う習慣も必ず変えられるはずだ」とありますが、これも興味深い。車を使う習慣を変えるべきという認識がまるで当たり前であるかのような前提で語っているわけです。環境、省エネ、渋滞対策などを考えたら当然導かれることなのですが、日本の行政に欠けているのが、この車を減らすべきという認識だと思うんですね。こういう認識をまず、みならってほしいと思いました。

立川コスモス

| コメント(0) | トラックバック(0)

10日ほど前のことですが、東京・立川市の昭和記念公園にコスモスを見に行ってきました。この公園は国営公園で、大変広い所です。園内の移動のためにバスが走っていたりします。コスモス畑はその一部として整備されています。

Hill of cosmos

コスモスは、斜面にびっしりと植えられています。

Cosmos

花のアップ。

Cosmos / コスモス

色とりどりのコスモスが咲き乱れていました。

Cosmos

こういう色のも。

Dogs and legs

園内は犬の散歩が多かったです。

Canal of Shōwa Kinen Park

イチョウの木も目立ちました。この先、イチョウが色付いたらまた多くの人が訪れるのでしょう。

広告