2016年9月アーカイブ

台湾語を使った結婚会見

リオ五輪でも活躍した卓球の福原愛選手の結婚会見についての記事が目を引きました。

台湾の江宏傑選手と結婚したことから日本だけなく台湾でも会見が行われました。そこで福原選手の話した言葉を取り上げたものです。

福原選手は以前から中国で卓球のトレーニングをしてきたので中国語(標準語、いわゆる北京語)に堪能だとのことです。台湾でも大陸から来た政権のもとで標準語たる北京語が普及していますが、一方、現地の言葉として台湾語というのがある。これは台湾の対岸に位置する福建省で話される閩南語が元になっています。北京語とは大きく異なるものだそうです。

福原選手は台湾の会見では台湾語で挨拶して現地の人々から好評を得たそうです。

台湾の言語事情についての書籍

台湾語の事情については、以前、本の紹介の形で当ブログの記事に書いたことがあります。

ここで紹介した本、『初めて台湾語をパソコンに喋らせた男—母語を蘇らせる物語』は、思ったより複雑な台湾の言語事情を含め大変興味深く面白かったので、気になる方は是非読んでみてください。

第3水準漢字の必要性

冒頭のニュース記事では台湾語のルーツについて「ビン南語」と記されていました。「閩南語」の「閩」がJIS X 0208の第1・第2水準にない漢字なのでこういう表記になったのでしょう。この字はJIS X 0213の第3水準、面区点1-93-49にあります。JIS X 0213の第3・第4水準漢字が使える環境なら、問題なく漢字で入力できます。

SKKの第3第4水準辞書を使うと「びんなん」という読みから「閩南」に変換できます。Macの辞書にも入っています。

このようなことからも、JIS X 0208でなくJIS X 0213を用いることの重要性が分かります。SJISとUTF-8の間のコード変換では、iconvで "SHIFT_JIS" の代わりに "SHIFT_JISX0213" を指定すれば、この「閩南」も問題なく変換できます。常にこのやり方を用いることをおすすめします。

瀬川拓郎『アイヌと縄文: もうひとつの日本の歴史』(ちくま新書)を読んでいたら、JIS第4水準漢字を見つけました。

(わん)」がそれです。JIS X 0213の漢字集合2面の4区87点にあります。文章の中で「青苗土器の埦は還元焼成気味で硬く」のように使われています。

どういう字か

この字は「碗」と同じように器を意味するようです。広辞苑では「飯・汁などを盛る陶磁器の食器」と説明されています。

埦飯(おうばん)」という熟語もあり、広辞苑にも載っています。ウェブ検索では百科事典の記述の一部としてもこの語が出てきます。また、埦を「「素焼き」で蓋つきの器」と説明しているページもあります(【茶道】盌と碗と椀と埦 )。

文字入力

Emacs上で動くSKKのJIS第3第4水準漢字辞書には、この「(わん)」や「埦飯(おうばん)」が登録されており、普通の単語と同じように読みから入力できます。

Macの仮名漢字変換では、「わん」から「埦」に変換できます。ただし「埦飯」は入ってないようです。

文字コードの扱い

JIS X 0213の第4水準漢字なので、Shift_JIS-2004やEUC-JIS-2004、UTF-8などで符号化できます。SJISのコード値はF1F5です。EUCでは8Fというシングルシフトコードに続けてA4F7とします(都合3バイトに見えます)。Unicodeの符号位置はU+57E6です。

UTF-8からSJISに文字コード変換するときは、iconvコマンドで下記のようにすれば「埦」という漢字も文字化けしません。

  iconv -f UTF-8 -t SHIFT_JISX0213 < utf8.txt > sjis.txt

この例の SHIFT_JISX0213 がShift_JIS-2004を意味します。EUCの場合はこれにかえて EUC-JISX0213 とします。反対にSJIS/EUCからUTF-8に変換するときは、オプション -f と-t を入れ替えます。

iconvの実装によっては SHIFT_JIS-2004 及び EUC-JIS-2004 という名前が使えるものもありますが、この名前に対応していないものもあります。SHIFT_JISX0213, EUC-JISX0213 であれば、一般的に問題なく使えるはずです。なおこれは名前だけの問題で、中身は SHIFT_JISX0213 も SHIFT_JIS-2004 も同じです。

第3第4水準漢字はいつでも出てくる

度々書いているように、文化的な文章にはしばしばJIS第3第4水準漢字が出てきます。

いつでも、第3第4水準漢字を扱える文字コードを使うことが重要です。具体的には、Shift_JIS-2004, EUC-JIS-2004, UTF-8などです。

アイヌ文化つながりで、先月書いた記事「札幌で見たJIS X 0213の文字」もご覧ください。こちらに出てくるアイヌ語表記用の片仮名の取り扱いにも、上記で説明した文字コード変換のコマンドが必要です。

広告