JIS X 0213の文字のUnicode合成表現のためのSKK辞書

これは何か?

仮名漢字変換プログラムSKKのための辞書ですが、少々特殊な目的のものです。

JIS X 0213の文字には、Unicodeの符号化を施すと結合文字を使ってふたつの符号位置の連続によって表現する必要のあるものがあります。そうした文字について、JISで定義される単一の符号位置でなく、Unicode流の合成表現の文字列を出すための辞書です。

例えば、鼻濁音を表す「か゚」という文字(JISの面区点番号1-04-87)について、「か + 合成用半濁点」という列を出力します。合成用半濁点の表現にはHTMLの文字参照を使って、「か゚」として表します。

なぜ・どういうときに必要なのか?

簡単にいうと、Emacs 21/22 + Mule-UCS + SKKの環境で、アイヌ語や鼻濁音の文字、一部の発音記号などを含むHTML文書を入力しUTF-8で保存するのに適しています。

EmacsとSKKを使うと、JIS X 0213の全ての文字を自由に扱うことが可能です。JIS X 0213の文字を入力したバッファは、EUC-JIS-2004やShift_JIS-2004、あるいはUTF-8などで保存が可能です。

しかし、UTF-8で保存しようとした場合に、Mule-UCSを使うと問題があります。それは、Unicodeで符号化するときに単一の符号位置がなく結合文字を使って表現する必要のある25文字については、正しく保存されないというものです。例えば、「か゚」という文字はUTF-8として保存できません。

そこで、Unicodeで必要な合成の表現を文字入力の段階で生成してしまうのが、この辞書の目的です。「か゚」という1文字の代わりに、「か゚」という文字列を入力するのです。これによりMule-UCSでもUTF-8で保存できますし、それをHTMLとしてWebブラウザで表示すれば「か゚」と表示されます(表示環境がこの文字に対応していればですが)。

結合文字が表示や処理上どう扱われるかは実装によって対応がまちまちなので、辞書上では基本的にHTMLの文字参照を用いています(ただし˥˩と˩˥については文字そのものを記しています。この扱いはのちのち変えるかもしれません)。用途としてHTMLやXMLの編集を想定しているので、この形式が妥当なものと考えます。

辞書ファイル

辞書ファイルは下記リンク先にあります。EUC-JIS-2004 (EUC-JISX0213)で符号化されています。


2009年11月 初版公開

最近のブログ記事

「小樽雪あかりの路」の魅力
北海道の冬のイベントというと札幌の雪まつ…
libiconv に JIS X 0213がない場合
GNU libiconvはJIS X 0…
「キュレーション」なる語について
DeNAのキュレーションサイトWelqの…
雪の青の夜景、札幌と函館
何日か前の朝のNHKニュースで札幌の夜景…
「2バイト文字」という言い方
「2バイト文字」という言い方につっこみを…

広告