2010年3月アーカイブ

Emacsでuniq

| コメント(0) | トラックバック(0)

Emacsでテキストファイルを加工していると、行単位で整列(sort)したくなることが時々あります。そんなときのために、Emacsにはsortコマンドが用意されています。範囲指定してM-x sort-linesとすると整列されます。

整列すると、同内容の行は一箇所にまとまって現れます。すると往々にして、こうした重複行をひとつにまとめたくなります。Unixコマンドでいうuniqです。ところが、Emacsにはこのコマンドは用意されていません。

つい先日そういう状況があったので、ちょちょいとWeb検索してみたら、世の中よくしたもので、ちゃんとEmacs用のuniqコマンドの実装が存在するのでした。これを使えば重複行を取り除くことができます。

また、上記のEmacs Lispをインストールしなくとも、外部コマンドとしてuniqを呼び出すことで、Emacsのバッファの中に対してuniqを実行することもできます。

アイヌ文化交流センター「サッポロピㇼカコタン」のWebサイトには、アイヌ語を記すのに使われる特別な片仮名がふんだんに使われています。

といっても、JIS X 0213やUnicodeを使っているのではありません。HTMLのタグで文字を小さくしたり、はたまた画像として作ったり、あるいは所謂「半角」の片仮名で表現したりと、苦労がしのばれます。

名称の「ピㇼカコタン」にしても、「ピㇼカ」の「ㇼ」は日本語の「リ」とは違う発音なので、小書きの「ㇼ」が適当なのです。

ただ、このサイトでは、文字をどういう方法で表すかが不統一なだけでなく、肝心のアイヌ語表記そのものにも方針の不統一が目立ちます。

例えば、pで終わる語について、小書きの「ㇷ゚」で表す箇所もあれば、普通の「プ」を用いている箇所もあるという具合です。

さらに、私はアイヌ語に詳しくないので断定は避けますが、ローマ字綴りもアイヌ語としてあっているのかどうかちょっと疑問に思う箇所があります。楽器の「ムックリ」をこのサイトでは片仮名で「ムックㇼ」ローマ字で「mukkur」と書いていますが、これは怪しい。ローマ字でmukkurが正しいとするなら「ムックㇽ」になる筈で「ムックㇼ」にはならない。そもそも、私の理解が正しければ、「クㇼ」という綴りになるケースはないのではないかと思います。ここは、片仮名で「ムックリ」ローマ字で「mukkuri」が妥当なのではと推測されます。アイヌ語の辞典の著作もある中川裕氏の「アイヌの物語世界」(平凡社)には「ムックリ」と記されています(p.260)。

というような議論をするためにもやはり、JIS X 0213なりUnicodeなりでアイヌ語表記用の片仮名を自由に交換できるようにする必要があるのです。しかしUnicodeを使った場合、一部の文字に符号位置が与えられていないために面倒なことになります。拙著を書くときに遭遇したこの種のトラブルについてはこぼれ話にも書きました。

2000年の時点でベンダが覚悟を決めてJIS X 0213対応を進めていればこういうことにはならなかったのでしょうが(少なくとも、今よりもマシな状態になっていたのでしょうが)、残念なことです。

ルビの誤り

| コメント(0) | トラックバック(0)

ある小説を読んでいたとき。

「頰」という字の横に、「ほお」というルビが振られていました。「ほほ」と書かない見識はさすが文芸出版社と感心しつつ読み進めていったのですが、同じ本の別の箇所では同じ字に「ほほ」とルビが振られていて、アレレと思ってしまいました。このブログをお読みの方には釈迦に説法でしょうが、「頰」は「ほお」が正しいとされています。

一冊の本の中でどうして違ってるんだろうと不思議に思いました。

今日、また別の本を読んでいたとき。

「燭台」という語に、「ろうだい」とルビが振られていて、ンンンと引っかかりました。どう見ても「しょくだい」だろうこれは。「蠟燭」という熟語が元で混同したのでしょうか。

2冊の例だけで一般化するのもどうかという気もしますが、一般の本でも案外、ルビの間違いがあるものなのでしょうか。それともたまたま、稀な例に続けざまに当たっただけなのでしょうか?

拙著「プログラマのための文字コード技術入門」への嬉しい評を見かけました。本書に興味のある方はご覧いただければと思います。

書名にもかかわらず、プログラマだけでなく「全てのITエンジニアが対象ということになる」と指摘されているのは、実は著者の思いと同じです。この点に言及してくれたのがまず嬉しい点です。(ちなみに、書名には出版社の意向でプログラマという言葉を用いていますが、「はじめに」では「ソフトウェア技術者」というより広い意味の言葉を使って書きました)

そして中でも、第8章の「まとめ」の最後2段落を引用して「非常に印象に残った」としてくれているのが、著者として大変嬉しいことです。ここは著者としての思いの詰まったくだりです。

本書がその意図や思いを的確に汲んでくれる読者を得られたことは、この上ない喜びです。

WebやWeb広告の普及とともに、プライバシーが問題になることがあります。Web広告業者の行動がときにプライバシーの観点から軋轢を生むこともあります。

Webとプライバシーについて触れた記事などを見ていて残念に思うのは、プライバシーの歴史についてきちんと調べずに自分の主観的な印象だけで書かれたものが多いことです。

Web広告業者寄りの主張には、プライバシーの概念は時代とともに変わるものだから、今問題とされることもいずれ問題でならなくなる、といったものを見かけることがあります。こうした主張は、プライバシーの歴史を知らずに書かれたものと思います。

歴史の教えるところでは、法的な意味でのプライバシー権という概念は、19世紀に印刷や電信技術の発達によって可能になったイエロージャーナリズムとともに生まれたものであり、20世紀後半には情報通信技術の発展によって意味内容を拡大されました。発生した頃のプライバシー権とは「ひとりにしておいてもらう権利」という消極的な意味であったのが、20世紀後半には「自分についての情報をコントロールする権利」という、より積極的な概念へと拡張されました。(参考: 堀部政男「プライバシーと高度情報化社会」岩波新書、名和小太郎「個人データ保護――イノベーションによるプライバシー像の変容」みすず書房)

つまり、Web広告擁護の主張とはむしろ逆に、技術が進展するほどプライバシー保護の必要性が認識されてきたのです。

この歴史を敷衍するならば、近い将来、Web技術の濫用によってプライバシーが脅かされる機会が増えるほど、プライバシー概念はより強化されていくという想像が可能です。

権利というのは大体において、何か人間にとって大事なものが脅かされていると感じることを、今までに無い言葉で明文化することによって発見・定式化されるものだと思います。まだ名前のついていない脅威が迫ってきたならば、それに応じた新たな権利概念が発明されるはずです。例えば、昔は日照権という概念はありませんでしたが、技術の進歩によって高い建物が簡単に建てられるようになることでその概念が発見ないし発明される、という具合です。

先日、東京で情報処理学会の全国大会がありました。その展示ブースを見ていると、プライバシーに配慮した技術というのが売りになっているものが複数見受けられました。今後、プライバシーへの配慮を欠いた技術は競争力を失っていくのかもしれません。

ただ、日本において懸念されるのは、技術を熟知したプライバシー擁護団体が存在しない(ように見える)ことです。アメリカという国は、欧州諸国と異なり、プライバシーよりも商売を優先する企業が幅をきかせているような印象があります。しかしその一方では、EFF (電子フロンティア財団)のように、ネット空間の自由を守る一環としてプライバシー保護に目を光らせている団体が活動してもいるのです。自由とプライバシーにはどういう関係があるか。プライバシーは自由の基礎なのです。このことが日本で十分に理解されているかどうか。

おかげさまで、拙著「プログラマのための文字コード技術入門」は増刷となりました。書店によっては一時的に入手しづらいことがあるかもしれませんが、ほどなく再び店頭に並ぶものと思います。

発売以来、お読みいただいた方からTwitterなどで多くのご好評をいただき、本当にありがたく思います。

Twitterでの評判の一部: 「無茶苦茶面白かった。Java, Ruby 1.8, Ruby 1.9を使った説明も非常に適切」(etoさん)、 「とても良い本だった。超おすすめ」(mrknさん)、「これは素晴らしい」 (FloatingOTTさん)、「必読」(tkusanoさん)、 「非常に読みやすい。丁寧な書きっぷりに温かさ感じる」(nemotonさん)、 「良い本です。超おすすめ」(ogwataさん)、 「めっちゃ良い本だ! 説明が分かりやすい。日本語がシンプル、無駄が無い、図解が豊富で分かりやすい」(amatsumotoさん)、 「良書。JavaとRuby 1.8と1.9の違いもわかる。全角と半角について誤解している人にもお薦め」(h_okumuraさん)

皆様本当にありがとうございます。励みになります。感謝感激雨あられ。

産経新聞のWebサイトに掲載の記事「「親日」に対抗して「親北人名辞典」の名簿発表 韓国保守団体」に、人名に関連してこんな記載がありました。

統一相を務めた李鍾●(大の左右に百)、

「大の左右に百」とは、「奭」のことでしょう。日本語では「せき」と読みます。この漢字はJIS第3水準、面区点番号1-15-74にあります。Shift_JIS-2004では888A、EUC-JIS-2004ではAFEAというコード値になります。UnicodeではU+596Dにあります。

JIS X 0213は韓国語の人名を網羅することを意図して文字を収集したわけではないので、JIS X 0213外の漢字もあるのだと思いますが、ニュースを見ている限りではだいぶカバーできそうに思えます。

ちなみに同じ記事の中には「黄皙●(日へんに英)」という記載もあったのですが、日へんに英つまり「暎」という字は、JIS第2水準、1-58-85にあります。第2水準にあるのになぜ探せなかったのでしょうか。

産経新聞のWebサイトに掲載の記事、「パンチェン・ラマの副主席選出見送り 中国政協閉幕」の中に、人名についてこんな記載がありました。

「何(か)厚●(=金へんに華)(こうか)」

「金へんに華」という字、すなわち「鏵」は、JIS第4水準、面区点番号2-91-28にあります。Shift_JIS-2004ではFB5Bという2バイト、EUC-JIS-2004では8FFBBCという3バイトになります。UnicodeではU+93F5にあります。

JIS X 0213は中国語の人名を網羅することを意図して文字を収集しているわけではないので、JIS X 0213外の文字も当然あるのですが、ニュースなどを見ている限りでは結構カバーできるような印象を受けます。

ちなみにこの記事のパンチェン・ラマ11世は、先代の死去した後にダライ・ラマ14世の指名した後継者に対抗して中国政府が擁立した方の(いわばニセモノの)11世でしょう。本物の方は中国政府に連れ去られて今も行方は明らかでないそうです。パンチェン・ラマについて詳しく書かれたページがあります。

CMソング

| コメント(0) | トラックバック(0)

最初気付かなかったのですが、久保田利伸「Timeless Fly」に収録の「Soul Mate」という粋な歌は、ニッカのCMソングだったのですね。CMはニッカのWebサイトから見ることができます。

そうか、それでああいう歌詞なのだな。納得。

Ubuntuのパッケージマネージャ(Synaptic)からJava 6 SDKをインストールしたのになぜかJava DBが入っていないように見えるので頭の上に疑問符をいくつも浮かべていたのですが、このブログに書かれているように実はsun-java6-javadbという別パッケージになっていたのでした。

このパッケージをインストールすると、/usr/lib/jvm/java-6-sun/db に一式が入ります。この中のlibにderby.jarが入っています。

闇の中に浮かび上がる光の模様。宇宙飛行士・野口聡一さんが撮った札幌の夜景というものを知りました。綺麗です。

この写真は上の方が北東方面ですね。札幌を中心として、左側の方が日本海、下側の闇は山地です。札幌から左下の方につながっているのが小樽、一方、右側へ伸びた先は恵庭、千歳でしょう。上側、江別方面は雲に遮られているようです。

中心部分のひときわ明るいのがススキノで、その左上近くの黒い穴は北大。このふたつの対比が面白い。

札幌中心部の街路が直交しているさまが光の模様となって見て取れます。中心の方をじっと見ていると吸い込まれそうな錯覚さえ感じます。

ギブワン経由で、日本地雷処理を支援する会というNGOがあるのを知りました。カンボジアなど海外で地雷や不発弾の処理を行なっている団体です。

Webサイトに載っている報告や写真を見ると、地域によっては、地雷や不発弾が人々の生活の実に身近なところにあるのだということが生々しく分かります。

誰しも一度くらいは聞いたことがあると思いますが、今なおこういう現実が続いてるということを知るのは大変大事だと思います。

このNGOは自衛隊OBが中心となって専門技能を活かして活動されているのだそうです。自衛隊経験者が海外でこうした活動をすることが誤解を招くと考えられて活動を控えていた時期もあったそうですが、ともあれ専門知識を駆使して世界の問題の解決に貢献していることは素晴らしいと思います。

iPod TouchではJIS X 0213で初めて符号化された漢字を、単語として入力できることに今ごろ気付きました。

例えば、地名の例でいえば、「ほうのきざく」から「𣖔木作」(福島県)が、「きびなごあじろ」から「𩸕網代」(長崎県)が、「なぎのした」から「𡵢下」(愛知県)が、「ろほう」から「𡉴豊」(徳島県)が入力できるのです。それぞれ、「𣖔」(2-15-10)、「𩸕」(2-93-57)、「𡵢」(2-08-27)、「𡉴」(2-04-67)は JIS X 0213で初めて符号化された漢字です。面区点番号からわかるように、いずれも第4水準です。Unicodeではバージョン3.1で面02のCJK統合漢字拡張Bに入りました。

人名の「𣟿良(なぎら)」などというのも変換できます。「𣟿」(2-15-73)は同様に拡張Bにあります。

Unicodeで拡張Bにあたる漢字以外の第3・第4水準もあります。以前このブログでもとりあげた例として、「とかられっとう」から「吐噶喇列島」が、iPod Touchで変換できるのです。「噶」はJIS第3水準です。

ここではiPod Touchと記していますが、これは私の持っている機械がたまたまそれだからのことで、多分iPhoneでも同様なのでしょう。

JIS第3・第4水準漢字の普及は案外iPod Touch/iPhoneから始まるのかもしれないと思いました。

久保田利伸の新アルバム「Timeless Fly」を聴きました。すごく格好いいです。ずっと聴いていたい、心地よいCDです。

久保田のアルバムのUS版は、私のような日本人パンピーにはともすると難解な印象もあったのですが、これは文句なしに楽しめます。濃密、高品質な15曲。

NHKの国会中継でJIS第4水準漢字を見ました。「𥱋」という字です。「𥱋瀬」という名字として字幕に映っていました。面区点番号は2-83-61で、Shift_JIS-2004ではF77C、EUC-JIS-2004では8FF3DDというコード値になります。UnicodeではU+25C4BというBMP外の位置にあります。

ただ、誰の名前なのかはわかりませんでした(記憶できなかった)。国会議員の名前を検索すると参議院に簗瀬進という人がいて、「議員氏名の正確な表記」というページでは「𥱋」の字体が指定されているので、もしかするとこの人だったのかもしれません。

それにしてもこの「議員氏名の正確な表記」というのはちょっと考えものです。「鈴」の右下部分の違いとか、「保」の最後の2画が点かどうかとか、書き方のちょっとした違いあるいは書体による違いのようなものを「正確な表記」と指定するのはいかがなものかと思います。これによって誰が得をするのかと疑問に思います。

広告