Anthy用JIS第3・第4水準漢字変換辞書

概要

Linux等で使われる仮名漢字変換プログラムAnthyのための、JIS第3・第4水準漢字を含む語彙の辞書です。SKK用の辞書・SKK-JISYO.JIS3_4から変換して作成したものです。漢字だけでなく、JIS X 0213にあってJIS X 0208にない非漢字の語彙も含みます。

これにより、JIS X 0208 (第1・第2水準)に足りない、現代日本で使われる文字を大幅に補うことが可能です。例えば、以下のような言葉や記号等がAnthyで変換可能になります。

  • 従来表記できなかった地名: 吐噶喇列島 (とから‐、鹿児島県)、𣗄代 (たらのきだい、山形県)、𧃴川 (つづらかわ、愛媛県)、𡵢下 (なぎのした、愛知県)、魹ヶ崎 (とどがさき、岩手県)、等々多数。
  • 人名: 里見弴 (さとみとん)、中内㓛 (なかうちいさお)、渞 (みなもと、姓)、中村惕斎 (なかむらてきさい、江戸時代の儒者)、等。
  • 人名用漢字のうち、JIS X 0213において独立した符号位置が与えられた字体: 海、福、祈、僧、等。
  • 寺院、神社名: 等澍院 (とうじゅいん、北海道)、璉珹寺 (れんじょうじ、奈良県)、笠䅣稲荷神社 (かさのぎ‐、神奈川県)、等。
  • 中国や台湾や韓国の人名・地名: 李承燁 (イスンヨプ、プロ野球選手)、唐家璇 (とうかせん、中国政治家)、楊潔篪 (ようけつち、中国政治家)、米芾 (べいふつ、古代の書家)、深圳 (しんせん、中国地名)、九份 (きゅうふん、台湾地名)、涿県 (たくけん、中国地名)、等。
  • 三国志の人物名、例えば、許褚、程昱、邢道栄、龐統、華歆、譙周、などから、かなりマイナーなものまで。
  • 仮名文字類: アイヌ語用の片仮名として小書きのㇻㇼㇽㇾㇿ等や半濁点付きのセ゚ツ゚ト゚、鼻濁音用の仮名として半濁音付きのか゚き゚く゚け゚こ゚、その他、ゔ、ヷヸヹヺ、等。
  • 記号類: ©、®、€、〽、☀☁☂☃、♠♣♦♥、☗☖、ℓ、①②...㊿、❶...⓴、⓵...⓾、∅、∮、〼、⏎、✓、等々

使い方

辞書ファイルのアーカイブを下からダウンロードし、展開してできた jis3_4.t を ~/.anthy/imported_words_default.d/ にコピーします。これだけで使えるようになります。再起動等は要りません。

試しに、「とかられっとう」を変換して「吐噶喇列島」が出てくれば上手くいっています。

なお、本辞書で変換される語を表示するには、JIS X 0213の範囲の文字に対応したフォントが必要です。例えば、IPAフォントならOKです。また、非漢字の一部の文字については、描画ソフトウェアとフォントがUnicodeの文字合成に対応している必要があります。例えば、「が」から変換可能な、鼻濁音の「か゚」(か + 合成用半濁点)などがこれに該当します。

ライセンス

辞書ファイルはGPLライセンス(version 2)のもとで配布します。これは、元のSKKの辞書のライセンスがGPL v2のためです。

ダウンロード

最新版

この版では前の版に比べて以下の点を改善しました。

  • 大文字のアルファベットから対応する小文字のダイアクリティカルマーク付きの文字を変換可能に。例えば、O から ō が、また O- から ō が変換できる、E から é が、AE から æ が変換できる、など。
  • オリジナルのSKK辞書 (SKK-JISYO.JIS3_4) の最新版に追随。

過去の版

注意点

現段階では「とりあえず変換できる」レベルのものであり、品詞情報などが適切でない場合があります。特に、用言については全く入っていません。例えば、(第3水準の)「嚙む」という言葉は本来動詞として登録されているべきですが、今の版では「かむ」という読みに対して「嚙」という単漢字として登録されています。このあたりは、対処するかどうか未定です。

既知の問題点:

  • 用言(元のSKK辞書のokuri-ari entries)に全く対応していない。
  • 品詞が必ずしも適当でないものがある。(完璧にするのは、SKK辞書に品詞情報がないために多分無理ですが、ある程度は改善するつもりです)

本辞書はUTF-8で符号化されています。本辞書そのものや、本辞書によって作成したテキストデータをEUCやSJISに変換する場合は、JIS X 0213の符号化方式、EUC-JIS-2004やShift_JIS-2004を使用してください。例えば、iconvコマンドによってEUC-JIS-2004に変換するには次のようにします。

  $ iconv -f UTF-8 -t EUC-JISX0213 jis3_4.t > jis3_4-euc.t

Shift_JIS-2004にする場合には、上記の EUC-JISX0213 の箇所をShift_JISX0213 にします。

なお、本辞書は、EUC-JIS-2004で符号化されているSKK-JISYO.JIS3_4およびSKK-JISYO.JIS2004を、Ruby 1.8用に開発したスクリプトで処理することによって生成しています。


2010年6月13日 初版公開, 2011年5月28日 最終更新

最近のブログ記事

「小樽雪あかりの路」の魅力
北海道の冬のイベントというと札幌の雪まつ…
libiconv に JIS X 0213がない場合
GNU libiconvはJIS X 0…
「キュレーション」なる語について
DeNAのキュレーションサイトWelqの…
雪の青の夜景、札幌と函館
何日か前の朝のNHKニュースで札幌の夜景…
「2バイト文字」という言い方
「2バイト文字」という言い方につっこみを…

広告