書家の第3水準漢字が文字化けするわけ

| コメント(0) | トラックバック(0)

北海道南部の松前町は、20世紀日本の書家・金子鷗亭の出身地であり、その影響で書道教育の盛んな町として知られています。

その松前で高校生の書道パフォーマンスの大会が開催されたニュースがありました。

上記のうち、函館新聞の方は記事の中にちょっと残念な部分があります。書家の名前が「金子鷗亭」と、「鷗」の字がHTMLの文字参照になってしまっています。40407は16進表記で9DD7にあたります。UnicodeでU+9DD7は第3水準漢字「鷗」の符号位置です。

人手で40407のような数字を入力したとは考えにくい。私の想像ですが、テキストエディタなどで「鷗亭」と入力したあとで、工程上の何らかの段階でシフトJISに変換することがあったのではないでしょうか。その際に、第3第4水準漢字まで対応しているJIS X 0213Shift_JIS-2004ではなく、第1第2水準までしか対応していないJIS X 0208ベースのShift_JIS (ないしはその誤った実装であるCP932) に変換しようとして、このような結果になったのではないか。

SJISとの変換が必要な時には、Shift_JIS-2004 ないしは Shift_JISX0213 を指定すれば、こうした問題は起きなくなります。Python, PHP, Java, libiconv等を用いるとUTF-8とShift_JIS-2004との間でコード変換ができます。

この鷗(かもめ)という字は、常用漢字には入っていませんが、人名用漢字には入っています。文化的な分野ではこの金子鷗亭や森鷗外といった人名に使われますし、白鷗大学 (栃木県) という大学名や鷗島 (北海道江差町) といった地名にもあります。いつでも使えるように、第3第4水準漢字に対応した符号化方式 (第3第4水準文字コード) を常に用いることが肝心です。

なお、上記ニュース記事のもう片方、毎日新聞の方では、「鴎」という略字体を使っています。これはJIS X 0208の1983年改正で大きく字体の変えられたものとして有名ですが、元は新聞による使用の方が83JISよりも先だったのだそうです。その意味では、新聞がこの略字を使うのは一貫していると言えなくもない。ただ、表外字の部分字体にも略字体を適用しようとするなら鴎の一字だけでなく全ての表外字が対象になるのか、そうでないのなら鷗が適用対象になる理由は何なのかと、方針がなかなか難しくなってくるので、元来の字体 (鷗) にあわせるのが無難であろうと思います。

トラックバック(0)

トラックバックURL: http://yanok.net/yanok/mt-tb.cgi/631

コメントする

最近のブログ記事

JISの幽霊漢字が大正時代の新聞にあったように見えたという記事
JIS X 0208の幽霊漢字についてT…
Jアラート訓練メールで文字化けとのニュース
一昨日のことですが、中国・四国地方から文…
任俠の第3水準漢字
ユーモラス、と言っていいのか分かりません…
ふるさと納税で奥尻島のワインを頂きました
奥尻島は北海道の南西の方に浮かぶ島です。…
電子マネーの優先順位を考える
このブログを電子マネーとクレジットカード…

広告