「電子書籍における外字の弊害」の補足

| コメント(0) | トラックバック(0)

少し前の記事「電子書籍における外字の弊害」は(当ブログとしては)多くの人にお読みいただいたのですが、少々補足する必要があると感じたので、ここに付け足したいと思います。

まず訂正なのですが、『銀輪の巨人』について、外字になっている箇所は全てJIS X 0213で表現できると書きましたが、後で確かめたら、1文字だけJIS X 0213にない字が使われていました。門がまえの中に品と書く字(U+95C6, 闆)で、「老闆(社長さん)」という文脈で現れていました。中国語でしょうか。読み仮名は振られていませんでした。

Twitterで見た本記事についての反響では、細かなところで誤解が見られました。

まずひとつは、「シフトJISは第1・第2水準漢字のみ」という誤解です。JIS X 0213ではShift_JIS-2004という符号化方式が定義されており、これを使えば第3・第4水準が扱えます。「漳州」の「漳」は、1面87区8点ですから、シフトJISではEC47という2バイトになります。

JIS X 0213は、既存のJIS X 0208の符号化方式で符号化できることを前提として設計されています。ですから、シフトJIS (Shift_JIS-2004) でもEUC (EUC-JIS-2004) でも、あるいは1バイトコードとの混在のない2バイト固定長の方式 (漢字用8ビット符号) でも符号化できます。国際対応のしやすさを考えると新たに設計するものはUnicodeをベースにした方が有利でしょうが、既存資産との互換性が重要な場面ではこうした符号化方式を使うのが良いでしょう。

それから、「EPUBなら問題ない」という見解が見られました。確かにEPUBではUTF-8を使うでしょうから第3・第4水準漢字も符号化できます。ただ、それは別にEPUBというフォーマットに固有の話ではありません。別のフォーマットでも、文字コードとしてUTF-8を扱えれば (扱えるようにすれば) かわりないことです。

また、配信用のフォーマットが第3・第4水準に対応していたとしても、文字を入力したり編集したりするプログラムが第3・第4水準に対応していなければ意味がありません。執筆者はどうしたら「漳州」という文字を入力できるのか、ということです。世間のウェブサイトを見ていると、HTMLの文字コードとしてUTF-8を使っていても、第3・第4水準漢字を外字扱いしているものはしばしばあります。

ですから是非とも補足しておきたいのは、フォーマットだけを考えているのでは不十分だということです。

以前、当ブログで次の3つの記事を書きました。

単に文字コードだけでなく、フォントや文字入力環境も対応する必要があるということです。とりわけ、仮名漢字変換、もっと広くいえば文字入力環境の役割は重要です。プログラムで処理できて、フォントで表示できても、入力できなければ絵に描いた餅であるからです。

トラックバック(0)

トラックバックURL: http://yanok.net/yanok/mt-tb.cgi/407

コメントする

最近のブログ記事

「小樽雪あかりの路」の魅力
北海道の冬のイベントというと札幌の雪まつ…
libiconv に JIS X 0213がない場合
GNU libiconvはJIS X 0…
「キュレーション」なる語について
DeNAのキュレーションサイトWelqの…
雪の青の夜景、札幌と函館
何日か前の朝のNHKニュースで札幌の夜景…
「2バイト文字」という言い方
「2バイト文字」という言い方につっこみを…

広告