JIS X 0213の文字のUnicode合成表現のためのSKK辞書

これは何か?

仮名漢字変換プログラムSKKのための辞書ですが、少々特殊な目的のものです。

JIS X 0213の文字には、Unicodeの符号化を施すと結合文字を使ってふたつの符号位置の連続によって表現する必要のあるものがあります。そうした文字について、JISで定義される単一の符号位置でなく、Unicode流の合成表現の文字列を出すための辞書です。

例えば、鼻濁音を表す「か゚」という文字(JISの面区点番号1-04-87)について、「か + 合成用半濁点」という列を出力します。合成用半濁点の表現にはHTMLの文字参照を使って、「か゚」として表します。

なぜ・どういうときに必要なのか?

簡単にいうと、Emacs 21/22 + Mule-UCS + SKKの環境で、アイヌ語や鼻濁音の文字、一部の発音記号などを含むHTML文書を入力しUTF-8で保存するのに適しています。

EmacsとSKKを使うと、JIS X 0213の全ての文字を自由に扱うことが可能です。JIS X 0213の文字を入力したバッファは、EUC-JIS-2004やShift_JIS-2004、あるいはUTF-8などで保存が可能です。

しかし、UTF-8で保存しようとした場合に、Mule-UCSを使うと問題があります。それは、Unicodeで符号化するときに単一の符号位置がなく結合文字を使って表現する必要のある25文字については、正しく保存されないというものです。例えば、「か゚」という文字はUTF-8として保存できません。

そこで、Unicodeで必要な合成の表現を文字入力の段階で生成してしまうのが、この辞書の目的です。「か゚」という1文字の代わりに、「か゚」という文字列を入力するのです。これによりMule-UCSでもUTF-8で保存できますし、それをHTMLとしてWebブラウザで表示すれば「か゚」と表示されます(表示環境がこの文字に対応していればですが)。

結合文字が表示や処理上どう扱われるかは実装によって対応がまちまちなので、辞書上では基本的にHTMLの文字参照を用いています(ただし˥˩と˩˥については文字そのものを記しています。この扱いはのちのち変えるかもしれません)。用途としてHTMLやXMLの編集を想定しているので、この形式が妥当なものと考えます。

辞書ファイル

辞書ファイルは下記リンク先にあります。EUC-JIS-2004 (EUC-JISX0213)で符号化されています。


2009年11月 初版公開

最近のブログ記事

Jアラート訓練メールで文字化けとのニュース
一昨日のことですが、中国・四国地方から文…
任俠の第3水準漢字
ユーモラス、と言っていいのか分かりません…
ふるさと納税で奥尻島のワインを頂きました
奥尻島は北海道の南西の方に浮かぶ島です。…
電子マネーの優先順位を考える
このブログを電子マネーとクレジットカード…
電子マネーiDの隠れたお得
iDというのはSuicaやEdyのような…

広告