2017年8月アーカイブ

一昨日のことですが、中国・四国地方から文字化けのニュースがありました。IT系のメディアではなくNHKです。

Jアラートとは「全国瞬時警報システム」なのだそうで、最近北朝鮮のミサイル発射の問題のニュースに出てくることがあります。この緊急情報の送受信訓練で、メールでテスト電文を配信したところ文字化けして読めないものだったというニュースです。

上記リンク先には画像があり、携帯端末上で文字化けした文面が写っています。ぱっと見た感じでは、UTF-8のテキストをシフトJISとして解釈しようとしたように見えますが、冒頭の「発表」と末尾の「しまね防災情報」は見えています。前後の定型文がシフトJISで用意されていて、間に挟む本文もシフトJISでなければいけないところにUTF-8のバイナリを入れてしまったといった可能性が考えられます。

まあ、訓練で問題が見つかったのだから良かったとはいえるでしょう。プログラム自体は変えていなくても、そこに外部から与えるデータとして元々の想定とは異なるものを入れてしまったということもあり得るので、通しでやってみるのは重要なことです。

それにしてもIT系でない一般のニュースで「文字化け」という言葉を見るのはなかなか感慨深いものがあります。これをきっかけに拙著『プログラマのための文字コード技術入門』にも注目が集まる......かな?

ユーモラス、と言っていいのか分かりませんが、興味深いニュース記事がありました。

この記事の伝えるところによると、「「任●(にんきょう)団体山口組」(●は「侠」の旧字体)が、組織名を「任侠(にんきょう)山口組」に変更する通達を流していた」のだそうです。その理由として、「表記される際、「侠」の旧字体が正しく表記されないケースがあったことに不満を募らせたとみられる」と書かれています。

「「侠」の旧字体」は、当ブログ記事の題にあるように「俠」です。この字はJIS第3水準、面区点番号1-14-26にあります。人名用漢字にも入っています。

SKKの第3第4水準漢字辞書では「にんきょう」から「任俠」に変換できます。Macでも入力できます。もうこうした第3第4水準を避ける必要はないでしょう。

UTF-8のようなUnicodeの符号化方式で扱えるのはもちろん、JIS X 0213の符号化方式、EUC-JIS-2004Shift_JIS-2004で問題なく符号化できます。PythonやPHP, libiconvなどのコード変換はこれらの符号化方式に対応しています。

もっとも、上記のリンク先でもいまだに「●は「侠」の旧字体」のような読みにくい注釈を施しているのは残念なことです。JIS X 0213の全ての文字を扱えることがこれからの日本語処理の必須条件だという硬派な思想でビシッと筋を通して、第3水準漢字の組織名をいつでもどこでも使えるようにするのが良いのではないかと思います。

広告