2011年8月アーカイブ

文字コードに関して、符号化文字集合と文字符号化方式という区別がいわれることがあります。拙著『プログラマのための文字コード技術入門』でもその分類に従っています。

この区分によると、JIS X 0208やJIS X 0213は符号化文字集合で、シフトJISは文字符号化方式だということになります。

ところが、混乱させることをいうようですが、JIS X 0208:1997では、シフトJISは符号化文字集合だと書かれています。ウソだと思うなら、JIS X 0208:1997の附属書1を見てみると良いでしょう。

これはどういうことでしょう。シフトJISが文字符号化方式だというのが間違っているのでしょうか、それとも97JISの記述が間違っているのでしょうか?

結論をいってしまうと、これは単に用語法の問題ということになります。

そもそも、「符号化文字集合と文字符号化方式」という区分はISOやJISといった文字コード標準の世界で使われ始めたものではありません。多分に便宜的・慣用的な用語法でしかないのです (IETFのRFCにはそうした用語法が見えますが、IETFは文字コードを定める団体ではありません)。

ISOやJISの多くの規格では、符号化文字集合(coded character set)という用語は、「文字集合を定め、かつ、その集合内の文字とビット組合せとを1対1に対応付ける、あいまいでない規則の集合」として定義されています。そして文字符号化方式という用語はありません。シフトJISという文字コードの内実はこの用語の定義に合致しますから、JIS的にはシフトJISを符号化文字集合と呼ぶのは何らおかしいことではないのです。

ただ、拙著では、慣用的な用語法にも一定の便益があると認定して、あえて公的標準にない用語法を採用しました。

シフトJISやEUCといった文字コードは、JIS X 0208やJIS X 0213を変形したり他の符号化文字集合と組み合わせたりして作られているわけですから、そういうものに対しては符号化文字集合とは別の言葉で呼んだ方が分かりやすいという判断です。

しかしながら、「符号化文字集合と文字符号化方式」という区分がいつでも絶対にあるのだという立場をとってしまうと、ASCIIやLatin-1やBig5などを説明するときに、「符号化文字集合と文字符号化方式が一体になっている」といった苦しい説明をせざるを得なくなります。実際には、元々そんな区分はないにもかかわらずです。

肝心なことは、「符号化文字集合と文字符号化方式」という区分は絶対的・本質的なものでは必ずしもないということです。そういう区分を設けた方が便利なときだけ、採用すればいいわけです。

今回、札幌では、公園などを歩いてきました。羊ヶ丘展望台、中島公園、旭山記念公園です。

羊ヶ丘展望台は観光地として有名です。

Statue of W.S. Clark / クラーク博士像

そう、この指差しクラーク像のあるところです。札幌市内の見渡せる、眺めのいい場所です。札幌ドームからも近くです。ちなみに、北大構内にあるクラーク像は胸像です。

Hill of sheep / 羊ヶ丘

羊ヶ丘というくらいで、羊がいます。近くにはジンギスカン屋さんもあります。

チャペル

こんなチャペルがありました。羊ヶ丘で結婚式なんて良さそうですね。

Sunflower / ひまわり

この日はよく晴れて、いかにも北海道の夏らしい気持ちいい天候でした。

観光バスが乗り付けていて、外国人観光客もいました。大震災以来、外国人観光客がめっきり減ったときいていますが、戻りつつあるのでしょうか。

次は中島公園。

Sapporo Concert Hall / 札幌コンサートホールKitara

中島公園には札幌コンサートホールKitaraがあります。公園の景観とマッチした良い建物です。ここのレストランで昼食をとりましたが、公園の緑に囲まれて食べる感じで、とてもいい雰囲気でした。

Hōheikan / 豊平館

豊平館です。水色が印象的です。明治に建てられた洋館で、明治天皇が宿泊されたこともあります。重要文化財に指定されています。

Stream in Nakajima Park / 中島公園の川

園内の小川です。子供連れが水遊びしていました。私もごく小さい頃、この辺に水遊びに連れてこられていた筈です。もう記憶が定かでありません。

次は旭山記念公園。

Fountain and downtown Sapporo / 噴水と札幌市街

ここは札幌中心部の近くの斜面にある公園です。札幌市街地がよく見渡せます。羊ヶ丘展望台よりも市の中心部に近いので、こちらの方が迫力があると思います。

おすわり

犬の散歩も見掛けました。大人しくおすわりしています。

水遊び

噴水では子供が水遊びしていました。

光芒

雲の具合で、こんな光芒が見られました。

今回はこんなところです。

札幌の公園といえば、イサム・ノグチの設計によるモエレ沼公園や、北海道唯一の国営公園の滝野すずらん公園などもありますが、それらはまたいつか。

塩竈の塩と竈

| コメント(0) | トラックバック(0)

塩竈市のウェブサイトに、塩竈の字についての説明があります。

「竈」という字が難しいので、筆順を動画で示しています。これは親切。

塩竈という地名にはいくつか文字のバリエーションがあります。塩竈神社には「鹽竈」と書かれていますし、JRの駅には「塩釜」のように書かれていたりします。

整理すると、「塩」か「鹽」か、「竈」か「釜」か、という選択肢があるわけです。

「塩」と「鹽」は異体関係にあるので、どちらでも同じ字です。だから、好みや場面に応じてどちらを使ってもいいといえます。

一方、「竈」と「釜」は、意味の異なる別字です。両者は相互に置換え可能ではありません。

だから、鹽竈神社に由来するこの地名を書くのに「塩竈」と「鹽竈」はいいとしても、「塩釜」はちょっとおかしいはずです。

ただ、塩竈市では、「塩釜」と書かれたものは「塩竈」のことだと解釈するような運用がなされているそうです。

北海道に行ってきました。札幌と函館です。

札幌では円山動物園を見てきました。5月に行ったとき以来なので3ヶ月ぶりです。

このところ円山動物園では動物の出産ラッシュが続いていたようです。いくつもの動物の子供を見ることができました。

まずはユキヒョウの子供。

Young Snow Leopard Walking / 子供ユキヒョウ

大人のユキヒョウに比べるとまるっこい感じがして可愛いらしいです。

親と一緒の所にいて、親ユキヒョウにさかんにじゃれかかっていました。

まず、遠くに離れて狙いを定めます。

狙いを定める

適当なところでダッシュ!

ダッシュ

親ユキヒョウにとびかかってじゃれつきます。

じゃれる

これをひたすら繰り返していました。そういう時期なのでしょう。

次にオオカミ。オオカミも比較的最近子供が生まれたのですが、どんどん大きくなっていって、今回見たときはもう赤ちゃんという感じではなくなっていました。この日は寝てばかりいました。

昼寝オオカミ

親オオカミが近くから見守っています。

みまもる

次にホッキョクグマ。5月に見たときはひたすら寝てばかりいたのですが、今回は一応起きていました。

カメラ目線

これは地下鉄のタイヤにすっぽりはまっているところ。どうもこのポジションがお気に入りのようで、ここからあまり動きませんでした。

親グマがプールの中から子供を呼びました。

向き合う親子

親グマがロープを渡して子供と遊ぼうとしています。

おもちゃを渡す

が、結局水の中に落としてしまいました。

おもちゃが落ちた

子グマはやっぱりこのタイヤの中が心地良いようです。

リラックス

親グマは自主的に身体測定をしていました。体長2メートル。

2 meters high / 2メートル

ほかの写真がFlickrにあるので、興味と時間のある方は見てみてください。

さて、動物の子供は見て大変に可愛いらしいものですが、動物園としては繁殖や種の保存、研究といった意義が大きい筈です。子供が産まれて順調に育っているというのは、そういう面でも動物園としてよくやっているといえるのでしょう。

北海道新聞のウェブサイトに、台湾の人名の漢字を外字扱いしたものを見付けました。

日本語研修生、地元と交流 東川」というニュースです。北海道の東川町で、台湾と韓国の学生が町の人と交流したと伝えられています。この中に「台湾の何家☆(カカバイ)さん」というくだりがあり、「(注)☆は「王へん」に「攵」」という注釈があります。

「「王へん」に「攵」」とは、JIS第3水準にある「玫」、面区点番号1-87-88でしょう。

新JIS漢字 (JIS X 0213) に対応していれば、外字扱いせずに本文中に漢字をそのまま入れることができます。北海道新聞のサイトはShift_JISを使っています。SJISを使うのならば、Shift_JIS-2004を使えば「玫」をそのまま文字として表すことができます。SJISでなくていいなら、UTF-8でも勿論可能です。

この前塩竈に行ってきたので、芭蕉の『おくのほそ道』(久富哲雄訳注、講談社学術文庫)のそのあたりをぱらぱらと見直していたら、松島のくだりでJIS第3水準漢字が目にとまりました。

「其の気色(けしき)窅然(えうぜん)として」とあるのですが、「窅」という字が第3水準、面区点番号1-89-50にあるのです。

注釈は「窅然」という言葉の意味として「ほれぼれするさま、うっとりするさま」としています。しかし、漢和辞典の「漢字源」は、この言葉を「奥深いさま」としています。結構違いがあるように思えます。国語辞典を見ると、大辞林と広辞苑はともに「窅然」という語を見出し語として採用し、大辞林は「奥深いさま。深遠なさま」、広辞苑は「嘆いてぼんやりするさま。憂愁の色を深くたたえたさま」とし、いずれも『奥の細道』のこの一節を引いています。漢字って難しいですね。

SKK のJIS第3・第4水準漢字辞書や、それをAnthy用に変換した辞書では、「ようぜん」から「窅然」に変換できます。

ちなみにこの『おくのほそ道』にはまだ第3・第4水準漢字があると思いますが、詳しくは見ていません。凡例には、現行の字体に改めたものとして、「桒」(1-85-62)や「泻」(1-86-58)や「灵」(1-87-36)や「靍」(1-93-72)や「㝡」(2-8-3)や「釗」(1-92-92)といった第3・第4水準漢字を挙げています。

塩竈にて

| コメント(0) | トラックバック(0)

昼休みの時間帯が終わり客が少なくなって手が空いたためか、旨い寿司をほぼ食べ終えた私に板前がカウンター越しに話しかけてきた。

「お客さん、今日はどちらから」

「神奈川県です」

「神奈川ですか。そちらも大変でしたね」

えっ。何のことか、ちょっと量りかねた。

「電車が止まって、歩いて帰る人がたくさんでましたね」

大震災のことだった。客を気遣ってこう言うのだろうが、この地域の被害に比べれば、神奈川県で体験したことなど如何ほどでもないのはいうまでもない。

津波はこの店の1階の天井近くまで来たのだという。見れば、天井より少し下の壁に「3・11 津波の高さ」と記した紙が貼ってある。それでも建物自体が無事で、おそらく人も無事だったのだろう、店を再開できたのは素晴しい。再開まで50日ほどかかったのだという。

横で常連らしき人が別の店員と話している。

「また地震の話?」

「ええ、まだこの話でもちますよ」

私はフレンドリーな感じの店員に挨拶して寿司店を出た。

街を歩くと、ある店のガラスの壁に何枚もの写真が貼ってあった。「3・11の記憶 SIOGAMA」という貼り紙とともに。

Memory of March 11 / 3・11の記憶

現在の塩竈の街は一見平穏で、全体として悲惨な印象は受けない。が、まだ動いていない信号機や、ひしゃげたまま放置されているシャッター、連絡先だけ書かれて放置されている店舗、復旧に向けて工事中の建物など、そこかしこに震災の影響が見てとれる。

由緒ある塩竈神社に参拝して、この街をあとにした。次回また旨い寿司をいただきにこの街に来るときには、きっと復興が進んでいることだろう。

Sake bottle and cup / 酒器

青の酒器

塩竈といえば浦霞。浦霞の店舗には宮城県在住の作家による酒器が販売されていた。店を訪れた私がカメラを持っているのを見て、どうぞ撮影して結構ですよと店員が声をかけてくれたことを特記しておく。今回酒器は購入しなかったが、宮城県限定の「浦霞 蔵の華 純米吟醸」を買って帰った。

風鈴市

| コメント(0) | トラックバック(0)

先日、神奈川県川崎市の川崎大師で、風鈴市が開催されていたので見てきました。これは毎年やっているもののようです。

川崎大師の風鈴市

この風鈴市には、北海道から沖縄まで全国の都道府県の風鈴が集まります。材料も色も形も様々な風鈴が並んで音を鳴らしている様は見事です。

Wind-bell of Satsuma-kiriko cut glass / 薩摩切子の風鈴

これは薩摩切子の風鈴。美しい!

オブジェ風

オブジェ風のものも。

お相撲さん

お相撲さんの形をした風鈴。

Cat of good luck / 開運ねこ

開運ねこ。

小樽北一硝子の風鈴

海の感じのする、北海道は小樽北一硝子の風鈴。

最後に、動画も撮ってみました。風鈴市の音を含めた雰囲気を伝えるためには動画が最適だと思います。再生すると音が鳴るので注意してください。

今年はもう終わってしまいましたが、来年は足を運んで好みの風鈴を買い求めてみてはいかがでしょうか。

細かい背景などを抜きにして結論だけ言ってしまうと、これからの文字コードの使い方は次のように考えればいいのではないかと思います。ただしここではファイル等に用いる外部コードを問題にしており、内部コードは対象外とします。

  1. 特に理由が無ければUTF-8を使う。
  2. ただし、EUCの符号構造が必要なときはEUC-JIS-2004を使う。
  3. ただし、SJISの符号構造が必要なときはShift_JIS-2004を使う。

UTF-8といっているのは、ソフトウェアの国際展開を考えたらUnicodeを使うのが最も手っ取り早いからという理由が大きい。私は別にUnicodeを礼賛するつもりはないし色々問題を持ってはいますが、現時点では仕方ないと思います。Unicodeの符号化方式でも、外部コードとして使うならUTF-16などでなくASCII互換のUTF-8の方が扱いやすいだろうということです。

また単にUTF-8といっても対応度合いが様々なのが問題です。4バイトのUTF-8に対応しているかどうか、結合文字を含むときに問題が起きないかどうか、確認する必要があります。文字の範囲としてはJIS X 0213の文字を含むことを必須とすると良いでしょう。

さて、EUCの符号構造が必要なときというのは、プログラムやデータフォーマット等がEUCの構造を要求している場合ということです。私もEUCの構造を前提にしたプログラムをいくつも持っています。そのときはEUC-JIS-2004を使っています。SJISの場合も同様で、SJISの符号構造が必要ならばShift_JIS-2004を使えば現代日本の文字をよくサポートできます。

SJISなんてこれから無くなるんじゃないの、と思われる方もいるかもしれませんが、11年前、JIS X 0213が制定されたときだって、これからはUnicodeの時代だからSJISなんて必要ないと思われていたのです。しかし現実は違いました。11年経った今でもSJISは盛んに使われています。それなら、2000年の時点で覚悟を決めてShift_JISX0213 (2004年改正でShift_JIS-2004となる) を採用しておけば良かったのです。

COBOLという言語は古くさいものだと思っている人が多いかもしれませんが、業務用には現在でも盛んに使われています (ある人がCOBOLを馬鹿にする発言をしたところ、「君の給料もCOBOLで計算されているんだよ」とたしなめられたという話があります)。古いものが案外しぶとく使われ続けることもあるわけです。SJISが文字コード界のCOBOLになるかどうかは分かりませんが、使うのならばきちんと現代日本の文字に対応したバージョンのSJIS、つまりShift_JIS-2004を使うのがものの道理というものでしょう。

広告