2016年8月アーカイブ

札幌の中心部、大通公園と札幌駅を地下でつなぐ地下歩行空間を歩いていたら、パフォーマーが芸をしていました。その背後の柱に、JIS X 0213の文字が書かれているのが見えました。これはパフォーマーとは無関係にもともと書かれているものだと思います。次の写真です。

irankarapte

「イランカラㇷ゚テ」と書かれています。これはアイヌ語の挨拶です。写真には写っていませんが、他の柱には他の言語の言葉が書かれています。いろいろな言語が書かれているうちの一つです。

アイヌ語用の片仮名と文字コード

この中の小書きの「ㇷ゚」という文字は、もともと広く使われている日本の文字コード規格JIS X 0208になく、その拡張規格のJIS X 0213で符号位置が与えられたものです。漢字集合1面の、6区88点にあります。この文字は子音pの後に母音が続かない時に使われるもので、アイヌ語表記には頻出します。拙著『プログラマのための文字コード技術入門』では、アイヌ語で魚を意味する「チェㇷ゚」という語を題材として、符号化の例を示すのに使いました。

日本の文字コード規格は日本国内の言語表記に用いられる文字に対応しているべきですが、JIS X 0208は日本国内の言語であるアイヌ語に十分対応できておらず、ウェブサイトではfontタグを使って「プ」を小さくするような間に合わせの手段を強いられていました。日本国内の文字に不足があるというJIS X 0208の欠点を改善するJIS X 0213が規格化されて初めて、アイヌ語テキストの符号化が可能になりました。

なお、Macではアイヌ語の入力方式が日本語とは別に用意されています。これを使うと、「irankarapte」と打鍵すると「イランカラㇷ゚テ」と入力されます。

Unicodeではどうか

JIS X 0213の規格化を受けて、Unicodeにもアイヌ語用の片仮名が追加されました。ただし、結合文字を使って2つの符号位置の連続で表現できる文字については単独の符号位置が与えられませんでした。この「ㇷ゚」もその一つです。Unicodeでは、半濁点のつかない「ㇷ」の直後に合成用半濁点U+309Aを続けることで「ㇷ゚」を表現します。ちなみに半濁点のつかない小書きの「ㇷ」はアイヌ語の樺太方言の表記に使われるそうです。

この言葉の意味について

このイランカラㇷ゚テという言葉はアイヌ語の挨拶ですが、改まった感じのときに使われるものだそうです。この言葉については以前書いたことがあります。興味のある方はご参考に。

いつでも、どこでも、問題なく使えるように

この文字はJIS X 0213にあるので、Shift_JIS-2004, EUC-JIS-2004という符号化方式で問題なく使えます。今や、SJISというときはShift_JIS-2004、EUCというときはEUC-JIS-2004を使うことが必要です。そうでなければここで挙げたアイヌ語表記用の文字は使えません(CP932は論外)。

もちろん、Unicodeでも符号化できますから、UTF-8やUTF-16あるいはUTF-32でもOKです。ただし、結合文字で問題が出るようではいけません。つまり、「1文字=1符号位置」という前提のプログラムは駄目です。

アイヌ語表記用の文字に限らず、日本語ローマ字に使われる āīūēō のような長音符号つきのアルファベットや、尾骶骨の「骶」(1-94-21)、高校の教科書にある璦琿条約の「璦」(1-88-30)、リオ五輪の中国卓球選手・許昕の「昕」(1-85-14)、部首・字体記述要素の「亻」(人偏、2-1-21)、「礻」(示偏、2-82-64)、「灬」(列火、2-79-56)などなどの第3第4水準漢字が使えないのは日本の文字の符号化としてあまりに制約が大きいので、常にJIS X 0213の文字に対応した符号化方式を用いる必要があります(参考: 第3第4水準文字コードを使おう!)。フォントもJIS X 0213の全文字に対応したものを用いることが必要です(参考: 第3第4水準フォントを使おう!)。

広告