2013年4月アーカイブ

先日の記事に載せた札幌・円山動物園のホッキョクグマの写真のひとつが、ホッキョクグマ専門ブログのThe Polar Bear Blog で紹介されました。

私の写真と同じFlickrからの写真もこのブログには多く紹介されていますが、プロの写真家やハイアマチュアが人気投票で日々切磋琢磨している500pxからの写真も紹介されており、そういう写真と同列に並べられているといっぱしの写真家になった気がして大変気分がよろしい。

インターネットに公開すれば何であれ「世界に向けて公開」ではありますが、それで実際に海外の人に見てもらえるかというとそういうわけではないし、国内の人にだってあまり見てもらえないことが多いでしょう。実際に海外の人に見てもらって、良いと思ってもらえるには、やり方を考える必要があります。

ですから今回、国外でホッキョクグマを研究している人の目にとまって紹介され、それでますます日本の動物園のホッキョクグマの写真を海外に紹介できる機会を得たのは、良いことだったと思います。

これからも、日本の動物園の様子や、もちろんそれに限らず日本のいろいろな良いものを、世界に発信していきたいと思います。

プログラマのための文字コード技術入門』に、UTF-16/32に関連して「ビッグエンディアン」や「リトルエンディアン」という言葉は出てきますが、単なる「エンディアン」という言葉は出てきません。これは偶然ではありません。

「ビッグエンディアン」や「リトルエンディアン」という言葉の由来は同書に記したので繰り返しませんが、語源的には「big end」に「〜の人」を意味する「-ian」がついたものと考えられます。「endian」という言葉がまずあってそれがbigやlittleだといっているのではないわけです。

なので、「ビッグエンディアン」はこれでひとまとまりの言葉として扱っています。

「ビッグエンディアンか、リトルエンディアンか」を指す言葉は「バイト順」(byte order)といっています。BOMが "byte order mark" なのでそれと整合的です。

もっとも、上で述べたことはあくまでも「私はそうしている」という話であって、バイト順の意味で「エンディアン」といったら間違いだ、やめろ、といっているわけではありません。ビッグエンディアンとリトルエンディアンとがあったら共通部分を括り出して「エンディアン」といいたくなるのは人情ではないでしょうか。

昨年12月に生まれたホッキョクグマの双子は順調に育って、3月22日から晴れて公開されています。札幌、円山動物園です。先日、見る機会がありました。

Running / 駆け出す

母親と双子が一緒にいるところを見ることができます。母親はララ。これまで何頭もの子供を育てているベテラン母さんです。

Pillow / くままくら

私が着いたときは眠そうにしていました。

Happy yawn / 幸せなあくび

母熊に守られながらあくび。

White bear? / シロクマ?

途中から起きて遊び始めたのですが、すぐどろんこになってしまいました。もはやシロクマだかなんだか。

Hey, you're muddy / 君、真っ黒だよ

顔だけ残して黒くなっているのがユーモラスです。

Playing and watching / 遊ぶ双子と見守る母

双子がさかんに遊んでいるのを、母親が見守っています。

Milk time

ミルクタイム。

Playing with a tire / タイヤ遊び

彼らのお姉さんであるアイラ (現在はおびひろ動物園) と同じく、地下鉄のタイヤで遊んでいました。

何日か前に、ホッキョクグマのいるところのプールに水を入れたというのがニュースになっていました。今いけば、泳いでいるところを見られるかもしれません。

子熊はどんどん大きくなるので、小さいうちに見たいなら急いだ方が良さそうです。

ホッキョクグマは性別の判別が難しく、この双子については現在調査中だそうです。5月にもDNA分析によって判明して、その後名前の募集を行うということです。

私は見たことがないのですが、シュタインズゲートというアニメに『プログラマのための文字コード技術入門』が登場(?)していたそうです。

いくつかツイートとWikipediaを拾い読みして理解したところでは、いま劇場版が公開されているアニメの前作であるテレビ放映シリーズに、上記のシーンがあったようです。ダルというのはこのアニメの登場人物だそうです。テレビ放映は2011年だったとWikipediaにはあります。劇場版公開に合わせて過去のテレビシリーズがニコニコで放送されたようです。

アニメでいちいち本の題が判別できるものなのかとか、ものを見ていないのでよく分からないのですが、もし機会があったら注意して見ても面白いかもしれません。

ある人が「JISコードは可変長なので...」としゃべっているのが耳に入ってきて、「えーっと...」という気持ちになりました。

まず第一に「JISコード」が何を指しているかというのが問題です。世間で「JISコード」というときに大きく2種類あると思います。

  1. JIS X 0208 (あるいはX0213)が定義している2バイトのコード
  2. ISO-2022-JP

本来的にいって「JISコード」というのは前者だと考えられます。例えば「亜」という漢字に対する 0110000 0100001 という2バイトのコードです。まあ、JIS X 0201を「JISコード」と呼んだって間違いとはいえないでしょうが、普通そうはしないのでここでは除外しておきます。

それに対して後者は、前者の「JISコード」を、7ビットの環境でASCII (ないしJIS X 0201)の1バイトコードと同時に使うための方式のことをいっています。これがどうして「JISコード」と呼ばれるかというと、漢字コード部分が8ビットのEUCやSJISじゃないよ、という対比が念頭に置かれているように思います。その意味では、理解できる用法だとはいえます。

冒頭の発言は後者の用法のつもりだったのでしょう。

ただ前者の(つまり本来的な)「JISコード」は純然たる2バイトコードなので、JISコードが可変長だといってしまうとかなり奇妙に感じられるわけです。

「ISO-2022-JPで使われる漢字の2バイトコードはJISコードだ」と言うのはいいけれども、ISO-2022-JPそのもののことをJISコードと呼ぶのは誤解の元になりそうです。

目黒川夜桜

| コメント(0) | トラックバック(0)

東京の目黒川沿いには長い距離にわたってたくさんの桜の木が植えられており、桜の名所として知られています。何年か前にも行ったことがあったのですが、そのときは昼間だったので、今年は夜に行ってみました。灯りがあちこちにともされる中、夜桜が楽しめます。

Sakura glasses / 桜ワイン

川の両側には屋台が出ていて、ケバブやワインなどを売っています(なぜだか知りませんがケバブが目立ちました)。グラスを片手に歩いている人が多くいます。橋の上は川にせりだした桜を眺めるのに良いスポットですので、立ち止まっている人やグラスがありました。

Sakura night

写真を撮っている人も勿論たくさん。

Sakura festival / 目黒川桜まつり

このぼんぼりが川沿いにずっと飾られています。

Sakura festival street / 桜祭り

通りの様子。たいへん人出があります。写真には写っていませんが、車道と交差する地点には警備の人もたくさんいて、車道で立ち止まらないでくださーい、歩道に上がってくださーい、と大声で連呼していました。

実際ここの人出は大変なもので、最寄りの中目黒駅から既に人があふれていました。

Night cherry blossoms

桜の花は手を伸ばしたら届くくらいの近い位置にありました。

この前NHKの報道番組を見ていたところ、一般の人からの意見を紹介するくだりがありました。短い意見を書いたボードのようなものがいくつもスタジオに貼ってあって、そのうちいくつかをNHKのアナウンサーがとりあげて読んでいたのです。

その中に、「他人事ではなく自分事」云々、と書かれた意見がありました。

書いた人(つまりテレビ局ではなく一般の人)の意図としては、「タニンゴト」「ジブンゴト」と読ませるつもりだったのでしょう。

しかしこの意見を紹介するとき、アナウンサーは前段を「ひとごと」と読み、後段の「自分事」に相当するところは「じぶんのこと」と、さりげなく「の」を追加して読んでいました。

おお、さすがNHK。

以下、何が「おお、さすが」なのか分からない人のための説明です。

「他人事」という漢字を「たにんごと」と読む人もいて、上記意見の書き手もそうだったのでしょうが、これは本来「ひとごと」と読みます。というか話の順序としては、元々「ひとごと」という大和言葉があったところに「他人事」という漢字をあてたというのが本当のところでしょう。広辞苑や大辞林といった辞書を見ても、「ひとごと」という見出し語で説明されており、「たにんごと」は「ひとごと」へのポインタとなっています。広辞苑にはわざわざ「近年、俗に「他人事」の表記にひかれて「たにんごと」ともいう」と注記されています。

「他人事」が「ひとごと」である以上、「タニン↔ジブン」という類推によって作られた「じぶんごと」なる造語は成り立ちません。辞書にも載っていません。ですから、「自分事」なる字面は「じぶんのこと」と意訳して読まれたわけです。 (「ひとごと」の正反対になる言葉を強いて用いるなら、「わがこと」ではないでしょうか。視聴者意見を読むときにそこまで言葉を変えることはしないのでしょうが)

こういう思考回路 (だろう、多分) が一瞬のうちに展開して、番組の進行になんら影響を与えずに涼しい顔でさりげなく正当な言葉遣いに置き換える。一種の職人芸なのでしょう。

あるときJavaプログラムで、入力されたテキストデータに含まれる所謂「全角・半角」の区別を無視したいことがありました。例えば「RAM」という言葉が含まれていたら、所謂「全角」であろうが「半角」であろうがそれは同じ文字なので、重複符号化のせいにすぎないそういう非本質的な区別は無視したいわけです。

本当ならこれぞまさに正規化処理の出番で、JavaではUnicode正規化が簡単に使えるようになっているのですが、しかしUnicodeの正規化仕様はちょっと使いづらいところがある。

というのは、通常の正規化形式であるNFC, NFDはいずれも、「全角・半角」の区別をそろえてくれないので私の目的の役には立たない。一方、NFKC, NFKDはというと、「全角・半角」をそろえてくれるのはいいのだけど、三点リーダがピリオド3つになってしまうとか、記号類について余計なお節介をしてくれて何がどうなるのか正直私も覚えてないので、できれば触りたくない。

そのときどうしたかというと、入力データがもっぱら言語表記用の文字であって、記号類はほぼなかったので、NFKCを使いました。互換漢字もなかったのでその辺の問題もない。

入力データの性質・内容や、自分がそこで何をしたいのかという目的・用途によって、どういう措置をとるのがいいのか考える必要があります。

一般的にいって、日本語処理上では、正規化処理は次のようになっているのが使いやすいと考えます。

  1. 英数字はいわゆる半角にそろえる
  2. 片仮名はいわゆる全角にそろえる
  3. 結合文字は使わない方に(つまり合成済みの符号位置に)そろえる
  4. それ以外の余計なことはしない

最初の2つは、要するにJIS X 0208:1997で(ASCII/JIS X 0201と共用する場合に)いっていることと同じ話す。残りの2つは、つまるところ、JIS X 0208/0213に対応する符号位置はそのままいじらずに残しておいてくれよということです。

UnicodeにはUnicodeなりの方針があるのでしょうが、それが結果として使いやすくなっているかは一概にいえないものがあると思います。

広告