ATOK用JIS第3・第4水準漢字変換辞書

概要

ジャストシステム社の日本語入力プログラムATOKのための、JIS第3・第4水準漢字を含む語彙の辞書です。SKK用の辞書・SKK-JISYO.JIS3_4から変換して作成したものです。漢字だけでなく、JIS X 0213にあってJIS X 0208にない非漢字の語彙も含みます。

ATOKでは単漢字変換などでJIS X 0213の文字を入力することはできますが、第3・第4水準を含む語彙は必ずしも豊富ではありません。本辞書により、JIS X 0208 (第1・第2水準)に足りない、現代日本で使われる文字を大幅に補うことが可能です。例えば、以下のような言葉や記号等がATOKで変換可能になります。

  • 従来表記できなかった地名: 吐噶喇列島 (とから‐、鹿児島県)、𣗄代 (たらのきだい、山形県)、𧃴川 (つづらかわ、愛媛県)、𡵢下 (なぎのした、愛知県)、魹ヶ崎 (とどがさき、岩手県)、等々多数。
  • 人名: 里見弴 (さとみとん)、中内㓛 (なかうちいさお)、渞 (みなもと、姓)、中村惕斎 (なかむらてきさい、江戸時代の儒者)、等。
  • 人名用漢字のうち、JIS X 0213において独立した符号位置が与えられた字体: 海、福、祈、僧、等。
  • 寺院、神社名: 等澍院 (とうじゅいん、北海道)、璉珹寺 (れんじょうじ、奈良県)、笠䅣稲荷神社 (かさのぎ‐、神奈川県)、等。
  • 中国や台湾や韓国の人名・地名: 李承燁 (イスンヨプ、プロ野球選手)、唐家璇 (とうかせん、中国政治家)、楊潔篪 (ようけつち、中国政治家)、米芾 (べいふつ、古代の書家)、深圳 (しんせん、中国地名)、九份 (きゅうふん、台湾地名)、涿県 (たくけん、中国地名)、等。
  • 三国志の人物名、例えば、許褚、程昱、邢道栄、龐統、華歆、譙周、などから、かなりマイナーなものまで。
  • 仮名文字類: アイヌ語用の片仮名として小書きのㇻㇼㇽㇾㇿ等や半濁点付きのセ゚ツ゚ト゚、鼻濁音用の仮名として半濁音付きのか゚き゚く゚け゚こ゚、その他、ゔ、ヷヸヹヺ、等。
  • 記号類: ©、®、€、〽、☀☁☂☃、♠♣♦♥、☗☖、ℓ、①②...㊿、❶...⓴、⓵...⓾、∅、∮、〼、⏎、✓、等々。これらは日本語の名称や連想される言葉から変換できます。
  • ダイアクリティカルマーク付き等のラテン文字: â, ā, ç, é, ä, æ, ß, 等々。これらは大文字のアルファベットから変換できます。

その他、JIS X 0213について詳しくは拙著『プログラマのための文字コード技術入門』の第3章もご覧ください。

使い方

辞書ファイルのアーカイブを下記からダウンロードし、展開してできた jis34.dic を、ATOKのプロパティの画面から、「辞書・学習」タブの「辞書の追加・削除」のボタンで追加します。これで使えるようになります。

試しに、「とかられっとう」を変換して「吐噶喇列島」が出てくれば上手くいっています。

なお、本辞書で変換される語を表示するには、JIS X 0213の範囲の文字に対応したフォントが必要です。例えば、Windows Vista/7に付属のフォントならOKです。Windows XPの場合、マイクロソフトのサイトからダウンロードできるMSゴシックV5メイリオ、あるいはIPAが配布しているIPAフォントを使うことができます。また、非漢字の一部の文字については、描画ソフトウェアとフォントがUnicodeの文字合成に対応している必要があります。例えば、「が」から変換可能な、鼻濁音の「か゚」(か + 合成用半濁点)などがこれに該当します。

作者がテストしている環境は、Windows 7上のATOK 2011です。

ライセンス

辞書ファイルはGPLライセンス(version 2)のもとで配布します。これは、元のSKKの辞書のライセンスがGPL v2のためです。

ダウンロード

注意点

現段階では「とりあえず変換できる」レベルのものであり、品詞情報などが適切でない場合があります。特に、用言については全く入っていません。例えば、(第3水準の)「嚙む」という言葉は本来動詞として登録されているべきですが、今の版では「かむ」という読みに対して「嚙」という単漢字として登録されています。このあたりは、対処するかどうか未定です。

既知の問題点:

  • 用言(元のSKK辞書のokuri-ari entries)に全く対応していない。
  • 品詞が必ずしも適当でないものがある。(完璧にするのは、SKK辞書に品詞情報がないために多分無理ですが、ある程度は改善するつもりです)

本辞書によって作成したテキストデータをEUCやSJISに変換する場合は、JIS X 0213の符号化方式、EUC-JIS-2004やShift_JIS-2004を使用してください。例えば、本辞書の語彙を使ってUTF-8で保存されているファイルをiconvコマンドによってEUC-JIS-2004に変換するには次のようにします。

  $ iconv -f UTF-8 -t EUC-JISX0213 jis34-text.txt > jis34-text-e.txt

Shift_JIS-2004にする場合には、上記の EUC-JISX0213 の箇所を Shift_JISX0213 にします。EUC-JIS-2004やShift_JIS-2004のテキストファイルはEmacs等で読み込み・編集することができます。

なお、本辞書は、EUC-JIS-2004で符号化されているSKK-JISYO.JIS3_4およびSKK-JISYO.JIS2004を、Ruby 1.8用に開発したスクリプトで処理することによって生成しています。


2011年11月27日 初版公開

最近のブログ記事

「小樽雪あかりの路」の魅力
北海道の冬のイベントというと札幌の雪まつ…
libiconv に JIS X 0213がない場合
GNU libiconvはJIS X 0…
「キュレーション」なる語について
DeNAのキュレーションサイトWelqの…
雪の青の夜景、札幌と函館
何日か前の朝のNHKニュースで札幌の夜景…
「2バイト文字」という言い方
「2バイト文字」という言い方につっこみを…

広告