2010年4月アーカイブ

少し前に、オープンソースソフトウェアのライセンスについて調べる必要がありました。私は個々のライセンスについて詳しくないので、可知豊「ソフトウェアライセンスの基礎知識」(ソフトバンククリエイティブ)が役に立ちました。

代表的なオープンソースのライセンス、例えばBSDライセンス、Apacheライセンス、GPL、CPL、など、を、特徴によって分類することで、理解の見取り図を描きやすくなっています。

仕事などでオープンソースソフトウェアを利用する必要が生じた、でもライセンスって厳密に考えたことないや、なんか面倒くさそう、といった場合に役立つ一冊です。細かいことはライセンス自体にあたる必要があるでしょうが、その前におおよそのところを理解するのに良いでしょう。オンライン上には読者のためのサポートページもあります。

八重桜の花 私の住んでいる付近では八重桜が満開になりました。

桜というとソメイヨシノが人気ですが、この品種は江戸時代以降に作られたものだと聞きます。古くから親しまれた、古今和歌集にも歌われたような桜はまた別の種類だったのでしょう。ときにはソメイヨシノ以外の桜を見て楽しむのも良いと思います。ソメイヨシノの時期よりも人出が少ないので落ち着いて花を見られるのではないでしょうか。

今日は川沿いに八重桜などを見て歩いて、花桃やハナミズキなども見かけました。ときにはウグイスの声も。散歩に気持ちのいい季節になりました。

清田区にLRTを?

| コメント(0) | トラックバック(0)

ローカルな話です。興味のない人ごめん、と先に謝っておきましょう。

三井アウトレットパーク札幌北広島がオープンして大層賑っているそうです。札幌と冠しているもののぎりぎりのところで札幌市ではなく、隣の北広島市のエリアです。北広島ICの近くのようです。

この付近には鉄道路線がありません。案内のサイトを見ると「便利な公共の交通機関で」といっているものの、福住駅からバス19分というのが便利なうちに入るのかどうか。まあ、車で来店することが想定されているのでしょう。

隣接する札幌市清田区から国道36号でつながったこの界隈には結構大型の商業施設があるのですが、やはりみな車の利用が想定されているようで、利用者もそれを疑問に思っていない節があります。(私は札幌を離れて久しいので最近の状況には疎いのですが、多分あってるでしょう)

清田区というのは札幌10区の中で唯一鉄道路線の存在しない区です。だから辺鄙なのかというと必ずしもそうではなくて、札幌都心部と新千歳空港を結ぶ線上にあるという地の利のためか、住宅地が結構開発されています。で、住民はみな車で行き来しているわけです。

地図を見ていると、どうしてもこの辺に鉄道路線を引きたくなる。高齢化社会と環境時代を見据えたら、車一辺倒からは脱脚したい。

地下鉄東豊線の清田方面延伸というのはずっと前から言われていることですが、人口減少が予想される中、それはかなり厳しい。来るか来ないか分からない、来るとしても何十年も先になるような地下鉄を当てにするよりも、LRTでもさっさと引いてしまった方がいいのではないかと思います。

清田区の大型商業施設をひととおり回るようなLRTの路線を作って、既存の地下鉄駅、具体的には福住と大谷地につなげてしまう。冒頭の三井アウトレットは清田区をこえて北広島になるけど、そのへんまで全部つないでしまえばいい。福住につないで都心部に行きやすくするのは勿論のこと、大谷地につながれば新札幌駅さらには新千歳空港へのアクセスが改善する。と思うのですけどどうでしょう札幌の人。

ちなみにこういう鉄道路線妄想系の話題は多くの人の想像力を刺激するものらしく、勝手に鉄道建設というWikiサイトではいきなり「国後新幹線」なるものが構想されていて度肝を抜かれます。

JIS2004の符号化方式の一つShift_JIS-2004で符号化された「アイヌタイムズ」の記事を文字型ウェブブラウザのw3mで表示してみました。このテキストには日本語・アイヌ語(ラテン文字・片仮名)・エスペラントが混在しています。下の画像が表示画面です。

アイヌタイムズのw3mでの表示画面

「ㇰ」や「ㇻ」といったアイヌ語特有の片仮名や、エスペラント文に使われている「ŝ」や「ĝ」のようなダイアクリティカルマーク付きのラテン文字が表示されているのが見て取れます。Shift_JIS-2004ではこうした文字を自由に使うことが出きるのです。

ただし、この画面ではダイアクリティカルマーク付きのラテン文字は全角幅で表示されてしまっています。これは表示系の問題であって、JIS X 0213が文字幅を定めているわけではありません。また、アイヌ語の分かち書きのためにあけているスペースが詰められてしまっています。これはw3mのレンダリングの問題でしょうか。

同じくw3mでHTMLソースを表示すると下の画面のようになります。ソースでは分かち書きされていることが分かります。

アイヌタイムズのw3mでのソース表示画面

w3mでJIS X 0213を使うには、oキーを押して出る設定画面で、JIS X 0213の使用を指定してやる必要があります。

アゴ乗せ鹿

| コメント(0) | トラックバック(0)

アゴ乗せ鹿 この前の動物写真のおまけのようなものです。

他の鹿の背中にアゴを乗せている鹿。疲れているのか横着なのか。目がちょっと眠そう。

もたれかかるのにちょうどいい高さなのかもしれません。

乗りかかられている鹿の方は無表情に前の方を見ています。どう思っているのでしょう。

NHK教育の俳句番組をつけたままその辺の片付けものをしていたのですが、ちょうどテレビに顔を向けた瞬間、俳句を映した画面に「尾骶骨(びていこつ)」と書いてあるのが見えました。

2文字目の「骶」はJIS第3水準、面区点番号1-94-21にあります。SJISではEFB3、EUCではFEB5というコード値になります。SKKのJIS第3・第4水準漢字辞書を使えば「びていこつ」という読みから変換できます。

この尾骶骨という単語は、第3・第4水準漢字の必要性を示す例として割合よく使われるような気がします。といいつつ、「プログラマのための文字コード技術入門」では使っていなかったか......。

Intercross Creative Centerのサイトに掲載の「コアックマ」に関するインタビュー記事を読んでいて気になったのは、「ゆるキャラ(R)」という表記でした。この(R)は商標登録の®記号の代用なのか、それとも本当に「括弧にR」として何らかの意味を持つものなのか。

記事を最後まで読んでも分からなかったので適当に検索したところ、「ゆるキャラ」という名称が「扶桑社とみうらじゅんによって2004年11月26日に商標登録されている(登録番号 第4821202号)」というWikipediaの記述があったので、やはり®の代用として使っているのでしょう。「ゆるキャラ®さみっと協会」のWebサイトでは、画像では®記号にして、テキストでは(R)という表記になっています。

しかし、ICCの記事にせよ、「ゆるキャラ®さみっと協会」のサイトにせよ、文字コードとしてUTF-8を使っているにもかかわらず(R)のような代用表記に頼っていることは何とも残念です。Shift_JISで表現できる範囲の文字しかまともに使えないというのなら、UTF-8を使う意味は何なのでしょうか?

このような状況を打破するひとつの方策としては、JIS X 0213の符号化方式、つまりShift_JIS-2004やEUC-JIS-2004の実装を広めて、いつでもどこでもJIS X 0213の文字が使えるようにすることだと思います。実際、私がこのブログで文字参照などを使わずこともなげに®記号を書けているのはひとえに、JIS X 0213の符号化方式を実装したソフトウェアのおかげなのです。

先日ご紹介したブログ記事に、こういうくだりがありました。

本書では、アイヌ語について所々で触れています。JIS X 0213に触れる以上当然かなというぐらいで読んでいたのですが、著者が札幌出身ということもあるんでしょうね。

確かにそういう面はあるのかもしれません。が、そればかりではもちろんない。

拙著で私はなぜアイヌ語を取り上げなければならなかったか。それを説明するのに、どういう状況ならば取り上げる必要がなかったかを挙げてみましょう。

  • アイヌ語を書くための片仮名がJIS X 0208に含まれていて既に広く実装されていたら、敢えて取り上げる必要はなかった。
  • JIS X 0213の符号化方式が広く実装されていて当たり前のものになっていれば、敢えて取り上げる必要はなかった。
  • Unicodeで結合文字の処理なしにアイヌ語用の文字が処理できれば、敢えて取り上げる必要はなかった。

端的にいえば、日本国内の言語、それも消滅の危機にある言語にもかかわらず、アイヌ語情報処理環境が悲惨な状況にあるからにほかなりません。規格上のサポートは2000年に至るまで存在しなかったし、実装面ではJIS2000以降も実に惨憺たる状況でしかなかったのです。(ただ、最近のMac OS Xのようにアイヌ語のローマ字仮名入力方式やShift_JIS-2004を実装する製品があるなど、例外もあることは付け加えておきます)

ではこの悲惨な現状を少しでも良くするにはどうすればいいか。考えるに、手っ取り早いのは、JIS X 0213の符号化方式、つまりShift_JIS-2004やEUC-JIS-2004を実装することでしょう。

なぜかというに、Shift_JIS-2004やEUC-JIS-2004を実装すれば、いやでもアイヌ語用の片仮名が含まれてくるからです。もしShift_JIS-2004やEUC-JIS-2004を謳うにもかかわらずそれらの文字を正しく扱えないなら、それは単にバグだといえます。

一方、Unicodeだとそうはいかない。「UTF-8に対応しています」といったところで、結合文字を含んだテキストをきちんと扱えるかどうかは分からない。アイヌ語に頻出する「ㇷ゚」のような文字が正しく処理できるかどうかは、UTF-8という表明からは伺い知ることができないのです。Unicode対応のソフトウェアなのに結合文字を使ったテキストの表示が壊れている例は拙著第3章の終わりの方でも取り上げました。

アイヌ語テキストの処理をしたいという要求が少数派のものであることは確かでしょう。しかし少数派だから切り捨てていいかというと、もちろんそんなことはない。多数派が便利になるように設計することは当然のように思われるかもしれないけど、やや大げさにいえば、多数派というのは実はどうでもいい。多数派はその定義上、マンパワーが大量にあるのだから、不便なままほっておいても誰かが解決策を作ってしまう。でも少数派はそうでないのだから、少数派に不便を強いることは、単に不便なだけでなくそれを解決する人もいないという、いわば不便の2乗になってしまう。多数派に便宜を図って少数派に不便を強いることは、少数派をますます少数派にしてしまうことになるのです。

日本の文字コードがアイヌ語の表記に必要な文字を含むことは、当然の義務とさえ言えるでしょう。規格上は既にできているのだから、あとは実装です。

Web上のニュース記事で、第3水準漢字が外字扱いになっているのを見かけました。

この記事の中に、「北京五輪女子78キロ超級金メダリストの●文(中国)が3連覇した〜」とあり、「●=にんべんに冬の二点がにすい」という注記があります。

「にんべんに冬の二点がにすい」とは「佟」のことでしょう。JIS X 0213の第3水準、面区点位置1-14-17にあります。Shift_JISでは表現できませんがShift_JIS-2004なら表現可能です。コード値はSJISで87AF、EUCでAEB1になります。Unicodeの符号位置はU+4F5Fにあたります。

記事の内容は、この佟文選手がドーピング検査で陽性反応になって金メダルを剝奪されたという残念な話です。

拙著「プログラマのための文字コード技術入門」を取り上げてくれた紹介記事をいくつかご紹介します。

本の構成にそった形での紹介記事です。割と長めに紹介してくれています。どんな内容か興味を持っている人にはいいのではと思います。

ごく短い紹介ですが、「場当たり的な対処で済まされがちな文字コード技術」というフレーズが光ります。

次は個人ブログから。

「この本の1章に、『文字コードを複雑化させる二つの理由』というのが書かれています。(中略) 本書は、この二つの理由をしっかり踏まえて書かれています。そこが、本書の良書たるゆえんだと思います。」

また、EBCDIC系について説明がないのが残念ということでした。

当サイトにも言及してくれています。

拙著を紹介してくださる皆様、本当にありがとうございます。

拙著「プログラマのための文字コード技術入門」の紹介ページに、「こぼれ話」と称していくつか余談を掲載しています。今のところ下記の3つです。興味がありましたらご覧いただければと思います。

特に3番目のは、これまでWeb上にほとんどなかった漢字の用例を(多分)初めて写真付きで紹介するものと自負しています。

あまりこぼれ話ばかりが多いのも考えものなのでほどほどにしておきますが、思い付いたらまた何か付け加えるかもしれません。

動物写真

| コメント(0) | トラックバック(0)

ワオキツネザル最近、一眼レフカメラで遊んでいます。まだ初心者なので、練習のために動物園に行って、動物たちに被写体になってもらってきました。動物はいろいろな仕草を見せてくれて楽しいです。これはワオキツネザル。いい表情が撮れました。

動物園で撮ると往々にして網や柵の類が邪魔になるのが問題です。この写真ではぼかすことができました。

ミーアキャット動物園はながらく行ってないという方も少なくないと思いますが、たまに足を運んでみると新しい発見があったりしていいと思います。こちらはミーアキャット。視線がいい感じです。

NHK教育の短歌番組を見ていたら、第4水準漢字を見かけました。「漢字」といっても実際には字体記述要素の「艹」です。JISの面区点番号2-85-86、SJISではF896です。UnicodeではU+8279にあたります。

投稿作品として、「(くさかんむり)の下に早いと書くからに〜(以下略)」という歌を紹介していました。ルビとして「くさかんむり」を振っていました。こういう使い方もあるんですね。

SKKのJIS第3・第4水準漢字辞書では「くさかんむり」から変換できます。

ある本を読んでいたら、「機を一にして」という言葉があったのでヤヤヤと引っかかりました。

()(いつ)にして」の誤用でありましょう。

ただ、それにしても、辞書に載っている「軌を一にする」の意味とは少々異なる使い方がされているように思えました。

広辞苑第五版は、「軌を一にする」の意味を以下のようにしています。

①[北史崔鴻伝] (車の両輪の幅を同一にする意から) 国家が統一され、その威徳が周辺にも及ぶこと。

②(みちすじを同じくする意から) 行き方が同じこと。

通常の場面で①が使われることはまずないと思うので、一般的には②の意味で使われるはずです。前の車が通ったのと同じ道筋(=軌)を進むという意味として理解できます。

ところが、私が引っかかった本に限らないのですが、「時を同じくして」という意味で使われていることが多いように思えます。

「時を同じくして」という意味を言いたかったのならば、「軌」でなく「機」と書いたのも分かる気がします。

今度「軌を一にして」という言葉を見たり聞いたりしたら、どういう意味で使われているのか気にかけてみてください。そして、辞書に載っている意味と同じか、違いがあるか、確かめてみると面白いと思います。

広告