2015年3月アーカイブ

いろいろなところにJIS第3第4水準漢字があるものですが、今度は画家の名前にあるのを見つけました。残念ながらウェブサイトで外字扱いされていました。

横須賀美術館の展覧会「ほっこり美術館」のページに、猫の絵の作者を「長谷川●二郎」「●=「隣」のへんがさんずいの「りん」」としています。つまり「長谷川潾二郎」ということですね。函館出身の画家だそうで、宮城県美術館が所蔵するこの猫の絵が有名らしいです。

この人名の「潾」という漢字は、JIS X 0213の第3水準、面区点位置1-87-14にあります。

上記の横須賀美術館のウェブページはUTF-8で符号化されているので問題なくこの字を扱えるのですが、外字扱いされてしまっています。こうした問題を解消するには、文章の入力・編集から公開されるウェブサイトまで、一貫してUTF-8やEUC-JIS-2004Shift_JIS-2004といった第3第4水準文字コードを使用し、文字入力プログラム(IME)もそれに対応した語彙を備えていることが必要です。

横須賀美術館だけでなく、テレビ東京でこの画家を取り上げたウェブページでも(KIRIN 美の巨人たち)、この字が外字扱いされており、また文字を画像化した箇所では「潾」の字だけ他の字とは異なる書体になってしまっています。文字コードもフォントもIMEもそろって第3第4水準に対応することが必要です。

この漢字は「りん」と読み、「水が透き通るさま。清らかなさま」(『漢字源』)などの意味があるそうです。文字というものは読みや意味を伝えるものですから、形だけ見ていないで読みや意味を知る事が重要です。

仮名漢字変換プログラムSKKのJIS第3第4水準辞書SKK-JISYO.JIS3_4には、この人名そのものは入っていませんが、「りん」という読みから「潾」に変換することはできます。

ASCII/JIS X 0201の0x5Cがバックスラッシュか通貨の円記号かによる「円記号問題」は、文字コードのトラブルとして大変ポピュラーなものです。拙著『プログラマのための文字コード技術入門』にも詳しく説明しています。これについてのちょっと変わったパターンのトラブルが先日ありました。

Windows機で、PowerPointに記された手順に従ってあるソフトウェアの設定をしていました。手順通り環境変数を設定してソフトウェアを実行したのですが、なぜか動かない。

環境変数に設定したのはプログラムのインストールされているディレクトリです。「C:¥hoge」のような形で、確かに正しいディレクトリが指定されています。

しばらく悪戦苦闘したのち気付いたのは、PowerPointの資料からディレクトリ名の文字列を環境変数にコピーしたときに、Windowsのディレクトリ区切りの円記号「¥」がU+005CではなくU+00A5だった、ということです。ああそんなことが...。

そもそもアメリカで開発されたWindows (というかMS-DOS)のディレクトリ区切りはバックスラッシュ、ASCIIにおける0x5Cだったわけです。ところがこの符号位置はISO/IEC 646の各国版において異なる文字・記号が割り当てられ得るものでした。ISO/IEC 646の日本版であるJIS X 0201ではバックスラッシュというマイナーな記号にかえて通貨の円記号が割り当てられたため、日本語版のDOS/Windowsではディレクトリ区切りが円記号という変な見た目になってしまいました。

WindowsがUnicode化されるとき、U+005Cは「本来はバックスラッシュの扱いなのだけども、日本語用のフォントでは円記号にしておく」という対処になってしまいました。一方、Unicodeにおける本来の円記号の符号位置U+00A5も当然存在しますから、日本語版Windowsでは円記号がU+005CとU+00A5の2箇所に (互換用いわゆる全角のも含めれば3箇所に) 重複符号化されているような格好になっています。

通常日本語Windowsで見かける (いわゆる「半角」の) 円記号はバックスラッシュU+005Cの仮の姿であることが多いので、今回のケースでも私は当然そう思ってコピペしたわけです。ところが案に相違して、ペーストされたのは本物の円記号(U+00A5)でした。それでは当然、ディレクトリ区切りとは扱われないわけです。 

Windowsのコマンドプロンプトで見ると、両者の違いを目視でつけることは私には無理だと思いました。下の画像です。

yensign-backslash.png

最後にcdコマンドでエラーになっているのは、"c:" の次に本物の円記号をペーストして実行したからです。目で見て原因に気付くのは無理だろうということに納得していただけると思います。

でもなぜ今回、コピー元のPowerPointの資料に本物の円記号が使われていたのかはわかりません...。

広告