2009年11月アーカイブ

配布物の一環として、「JIS X 0213の文字のUnicode合成表現のためのSKK辞書」を公開しました。先日のブログ記事のものを少々拡張したものです。

当Webサイトの編集にも、ここで公開している辞書を活用しています。

用途が分かりづらいものなので、説明を書くのに少々苦労しました。EmacsとMule-UCSとSKKでJIS X 0213の文字を使ったHTML文書を書いてUTF-8にしようとすると、必要性が自然と分かるものなのですが、いちから言葉で説明するのはなかなか難儀です。

この辞書によって、アイヌ語や鼻濁音などの文字を使ったHTML文書をEmacs + Mule-UCS + SKKの環境で入力しやすくなるというものです。

ビジネス書がブームだといいます。自分の能力を高める、仕事で成果を出す、といったものが流行っているようです。不安定な経済状況を反映しているのでしょう。

そうしたブームから思い出すのは、ビジネスと一見なんの関係も無さそうな本、伊勢田哲治『哲学思考トレーニング』(ちくま新書)です。

この本はおそらく書名の「哲学」という言葉の魔力のせいで本来届くべき層に届いていないのではと思います。

本書にしても、のっけからこう言っています。

「哲学についてのイメージはいろいろあろうが、哲学が「役に立つ」と思う人はあまりいないだろう。」

だけども、哲学というものは(少なくともその一部は)、思考のスキルを身につけることであって、実用的にもなり得る、と著者はいいます。

本書の冒頭で著者はこんなエピソードを掲げています。かいつまんでいうと、日本からアメリカに留学した学生が、哲学なんて専攻しても一般企業に就職なんてできっこない、とこぼした。すると相手のアメリカ人が、哲学を学んだ人はアメリカの企業では喜ばれるはずだ、なぜなら全体的な状況をとらえて分析する能力が身についているから、と言ったというのです。

さあ、そこのビジネス書好きの貴方、本書を読みたくなってきませんか? (笑)

小手先の(怪しげな)テクニックよりも、考えることのプロたちが長年かけて磨いてきた思考方法を身につける方が、どこでも通用するスキルになることでしょう。

本書は哲学の研究者が書いたものだけども、一般向けに読みやすく書かれているので、あまり抵抗なく読めると思います。

先の記事のAtomフィードをlivedoor Readerで表示させたところ、ちょっとおかしい結果になりました。本当は本文全部が表示されるはずのところが、途中で切れて終わっていたのです。切れていた箇所は、「𠮟」の字の直前です。試しにGoogle Readerでも同じフィードを表示してみましたが、そのような問題はなく、全文表示されます。

想像ですが、livedoor ReaderではUnicodeでBMP以外の面にある文字の扱いに問題があるのではないでしょうか? (違ったらごめんなさい)

先の記事では、「𠮟」という文字がUnicodeではBMP外なので使用に問題を生じるかもしれない、ということを書いたわけですが、問題の実例が早速発生してしまったようです。

「「改定常用漢字表」に関する試案」に対する意見募集についてというのが出ていることを安岡先生のところで知ったのでざっと見てみました。

「しかる」の字は「叱」でなくて「𠮟」が掲出されているんですね。でも、必ずしも「𠮟」でなくてもいいような説明も見えます。

「叱」はJIS第1水準にあって普通に使えますが、「𠮟」はJIS第3水準、面区点番号1-47-52です。UnicodeではBMPでなく面02にあるため、UTF-16ではサロゲート・ペアを使わないと表現できません。使用環境によっては問題を生じることもあると思います。

先の記事に「ㇷ゚」などアイヌ語特有の片仮名を書きましたが、私のこのブログの入力環境では、こうした文字の入力には少々問題があります。

このブログの入力環境というのは、ブラウザはFirefoxで、アドオンのMozExを使って外部エディタとしてEmacs 22を呼び出してテキストエリアを編集するというものです。EmacsにはMule-UCSをインストールしています。

この環境では、JIS X 0213の文字を自在に入力することができます。Mule-UCSのJIS X 0213サポートのおかげです。Emacsのバッファ上での入力・編集だけなら何の問題もありません。過去の記事に第3・第4水準漢字や「゠」(ダブルハイフン)のような記号を書いているようにです。前にも書いたように、私はSKKを使ってこれらの文字を入力しています。

しかし問題になるのは、編集したテキストをFirefoxに渡すためにはバッファをUTF-8で保存する必要があることです。Mule-UCSでは、JIS X 0213の文字のうちUnicodeで表現する際に結合文字を使って二つの符号位置によって表す必要のある25文字は(例えば「ㇷ゚」)、Unicode系の符号化方式では正しく保存されないのです。EUC-JIS-2004のようなJIS X 0213の符号化方式なら問題ないのですが。

そこでどうすればいいかというと、仕方ないので結合文字はHTMLの文字参照で表すことにします。「ㇷ゚」ならば「ㇷ゚」のように書くのです。せっかくUTF-8を使っているのに文字参照を使うのは何だかなあという感じですが、致し方ありません。

文字参照で表すといっても、手で打つのは面倒ですから、これもSKKで変換してしまえ、ということになります。SKKの第3・第4水準漢字辞書では「ぷ」から「ㇷ゚」を入力できますが、それに加えて「ㇷ゚」という文字参照付きの表現も辞書に登録してしまうのです。「゚」というのが合成用の半濁点だと覚えておけば、格好は悪いですがともかく入力・編集することはできます。

ただし、SKKの辞書形式では「;」はアノテーションを示す区切り文字として意味を持っているので、ちょっと特別な書き方をしてやる必要があります。

下記に例を示します。私はこれをSKK-JISYO.ucscompという名前で保存して、SKKの辞書のひとつとして読み込ませています。

;; -*- mode: fundamental; coding: euc-jisx0213 -*-
;;
;; okuri-ari entries.
;; okuri-nasi entries.
nga /(concat "か&#x309A\073")/(concat "カ&#x309A\073")/
nge /(concat "け&#x309A\073")/(concat "ケ&#x309A\073")/
ngi /(concat "き&#x309A\073")/(concat "キ&#x309A\073")/
ngo /(concat "こ&#x309A\073")/(concat "コ&#x309A\073")/
ngu /(concat "く&#x309A\073")/(concat "ク&#x309A\073")/
が /(concat "か&#x309A\073")/(concat "カ&#x309A\073")/
ぎ /(concat "き&#x309A\073")/(concat "キ&#x309A\073")/
ぐ /(concat "く&#x309A\073")/(concat "ク&#x309A\073")/
げ /(concat "け&#x309A\073")/(concat "ケ&#x309A\073")/
ご /(concat "こ&#x309A\073")/(concat "コ&#x309A\073")/
せ /(concat "セ&#x309A\073")/
つ /(concat "ツ&#x309A\073")/
と /(concat "ト&#x309A\073")/
ぷ /(concat "ㇷ&#x309A\073")/

これによって、アイヌ語用に必要な文字と、鼻濁音用の半濁点付きカキクケコは、文字参照を使った表現が入力可能になります。ほかにも同種の措置の必要な文字が発音記号等にあるので、もうちょっと整備が必要かもしれません。

と、ここまで書いて気付いたのですが、環境によっては「ㇷ゚」などが正しく見えていないと思います。JIS X 0213対応のフォントを使って、新しめのブラウザを使えば表示できると思いますから、「ㇷ゚」が小書きのプに見えていない方はこの機会に環境をアップグレードされることをおすすめします。

Mac OS Xのことえりを触ってみて面白かった、かつ感心したのは、アイヌ語の入力方式が実装されていたことです。

単に文字が入力できるというだけでなく、アイヌ語の一般的なローマ字つづりにしたがって打鍵すると片仮名に変換されるというものです。

たとえば、ローマ字で「akor␣itak⏎」と打鍵すると片仮名の「アコㇿ イタㇰ」になるのです。最後にリターンが必要なのは、後に母音がつくのでなくそこで終わりであることを示すためです。リターンを押すまでは未確定の状態になっています。スペースの前のrも同様で、直後にスペースを打つことによってㇿに確定されます。

また、「sirpopke」と打鍵すると「シㇼポㇷ゚ケ」と入力されます。標準添付のエディタ「テキストエディット」であれば、この文字列をShift_JIS-2004 (テキストエディットの画面では「Shift JIS X0213」)やUTF-8で保存することができます。

UTF-8で保存すると、Emacs 22 + Mule-UCSの環境では正しく表示できない文字があります。Unicodeで結合文字を使う必要のある文字がそれです。アイヌ語関係では、セ゚、ツ゚、ト゚、ㇷ゚の4文字です。よく使う「ㇷ゚」についてこの問題があるのはかなり痛いです。

Shift_JIS-2004であればこの問題はないので、Emacsとの間で自由に交換することができます。

本多勝一『日本語の作文技術』を見直したら、中点とダブルハイフン(二重ハイフン)の使い分けについて述べたくだりがあって、実にもっともなのだがなかなか実践できないものだと思いました。

使い分けとはどういうことかというと、今日の日本語文書では中点「・」の用法として、文中に語句を並列にならべるのと、人名など複数の語からなるものの区切りとが混在していて、支障があるので、後者にはダブルハイフンを用いることでこの支障を解消しようということです。

つまり、「フランス・ドイツ・日本」のような点の使い方と「バラク・オバマ」のような使い方とは明らかに異なるのに、両方の意味に同じ記号を使うのは良くないと。これでは、上の例の日本をトリニダード・トバゴにかえて「フランス・ドイツ・トリニダード・トバゴ」と書くと具合が悪い。すると考えられる解法としては読点を使って「フランス、ドイツ、トリニダード・トバゴ」にすれば良いというのもあるけど、読点は文の構造を示すために使うものだから、文全体のレベルで見たときには同種の問題をやはり引き起こしてしまう。ならば、読点は文の構造のため、中点は語句を並置するために使い、語の中の区切りはダブルハイフン「゠」を使うことにすれば解決する、ということです。

これにしたがうと「バラク゠オバマ」とか「アラン゠チューリング」とかいった書き方になる。別に人名でなくてもよくて、「トリニダード゠トバゴ」のように国名その他の固有名詞でもいいわけです。こうすれば上の例は「フランス・ドイツ・トリニダード゠トバゴ」のように書き換えられ、区切りに紛れがない。

と、理屈はわかるのですが、なかなか実際には踏み出せない感じがしますね。ひとつには、コンピュータで書くには従来の文字コードのJIS X 0208にはダブルハイフンが入っていなくて、JIS X 0213を使う必要があるのだけど、まだあまりJIS X 0213が一般的でないということがあります。Shift_JISにかえてShift_JIS-2004が普及していればよかったのですが、まだそうなっていない。ダブルハイフンはJIS X 0213の面区点番号1-03-91、SJISでは829Bです。

ダブルハイフンをイコール記号で代用するということも考えられますが、きちんとした印刷物ではイコールとダブルハイフンは活字が使い分けられているので、あまり代用はしたくない。ダブルハイフンは、「ハイフン」とつくだけあって、ハイフンと同程度の長さをとるようであり、イコールより短いことが多いようです。上記『日本語の作文技術』でも、「イコール」と「二重ハイフン」(ダブルハイフン)は別の記号として列挙され、印刷上の形も違いが見てとれます。

ダブルハイフンでちょっと気になるのは、今日の印刷物では「ジャン゠ジャック・ルソー」(Jean-Jacques Rousseau)のように、ダブルハイフンと中点を使い分ける場面が見られることです。上の本多式を採用するとこの使い分けができなくなることになりますが、それはいいものかどうか、ちょっとわかりません。

涿の字

| コメント(0) | トラックバック(0)

SKKのJIS第3・第4水準漢字辞書に「涿州(たくしゅう)」「涿鹿(たくろく)」を追加しました。どちらも中国の地名です。涿州は現在の河北省の地名で、涿鹿は伝説上の帝王の黄帝が敵と戦ったとされる土地です。「涿」の字は第3水準、面区点番号1-86-80です。

三国志のお好きな方なら、同じ「涿」の字を使う「涿郡」という地名に覚えがあるでしょう。劉備の出身地です。

この「涿」という字、漢和辞典では「新字源」でも「漢字源」でも、川の名前として載っているのみで、意味らしい意味が出ていません。固有名詞にしか使われない字なのでしょうか。

JIS漢字字典」には、涿美(タクミ)という人名の例も載っています。日本人名でしょうが、やはり固有名詞です。

等澍院

| コメント(0) | トラックバック(0)

どうやって行き着いたのか忘れてしまいましたが、あるWebページで「等澍院(とうじゅいん)」という寺院の名前を見付けました。北海道の様似町にある寺です。なぜこの名前が目についたかというと、「澍」という第3水準漢字(面区点番号1-87-17、SJISコードEC50)を含んでいるためです。

北海道の寺院というと明治以降に創建されたもののように思うかもしれませんが、この等澍院は江戸時代につくられたものだそうです。1799年に江戸幕府は東蝦夷地を直轄化して入植をすすめましたが、現地で亡くなった人を弔う寺が必要だということで、19世紀の初頭に建てられたというわけです。この等澍院と、有珠の善光寺、厚岸の国泰寺をあわせて蝦夷三官寺というそうです。

この等澍院の歴史資料は国の重要文化財に指定されているそうです。また、護摩堂や弁財天像などが町によって文化財に指定されている由です。

様似町は北海道の太平洋ぞい、襟裳岬に近い日高地方の町です。行く機会があれば、第3水準漢字の名所として(?)等澍院を訪れてみるのもいいかもしれませんね。

鈴木孝夫『日本語教のすすめ』新潮新書を読みました。日本語についての雑誌連載エッセイを一冊にまとめた本です。

著者がこれまでにさまざまな本で明らかにしてきた日本語や外国語の特徴をコンパクトにまとめたもので、いわば著者のベスト盤といえるような本です。『ことばと文化』や『日本語と外国語』などでお馴染みの内容もあり、著者の本を何冊も読んできたような人には少々物足りないかもしれません。一方、著者の本を初めて読むという人には格好の入門編となるでしょう。

私は著者の本をいくつも読んできたので、ああ例のあれかと思うようなところも少なくなかったのですが、外国語のポピュラーな小説の何気ない文章を手がかりにしてその言語の気付きにくい特徴を明らかにしていくくだりなど、著者の十八番といえる手法ですがついつい引き込まれてしまいました。知的探究心に訴える一冊。

法話の内容

| コメント(0) | トラックバック(0)

昨日書いたのは質疑応答の話だけですが、メインの法話自体の内容は石濱先生のブログにありますのでご参考まで。私もメモをとっていたのですが、石濱先生の方が確実でしょう。聴いた方がご覧になると復習になって良いと思います。聴いてない人がメモだけ読んで分かるかどうかは定かではありません。

こういう講演ではメモをとることが大事です。メモをとらないでただ聞いているだけだと、帰りの駅に着くまでにほとんど忘れてしまうことうけあいです。

昨日はダライ・ラマ法王の法話が東京・国技館でありました。

過去の経験からすると、こういうときバツの悪い思いをするのは大抵質疑応答です。思い入れが強すぎる人なのでしょうが、聞いていてアレレと思うような質問をする人が毎回必ず出るのです。

しかし今回の質疑応答の最後の質問ではいつになく盛り上がりました。質問者は十代と思しい少女で、自分が嫌いなのだがどうしたらいいか、どうしたら自分を好きになってあげられるのか、という内容。

「自分を好きになってあげられる」などという甘ったるい言い回しがもう、テレビの影響なのか何なのかそれこそ「アレレ」の範疇なのですが、この質問への法王の回答は熱のこもったものでした。

まず、他人に対する慈悲を持つためには自分を大切にすることが必要だということを言って、自己嫌悪を否定。そしてその次がポイントなのだけど、自分が嫌いだというのは、何か問題を抱えているときの自分が嫌いなのであって、リラックスしているときや楽しみを感じているときの自分は嫌いではないはずだ、そうでしょう? と質問者に確認したのです。口を両手で押さえながら頷く少女。であれば、そうした問題が起こらないようにすれば、自分を嫌いにはならないはずだ、と法王。

なるほど、そうなのだ。自己嫌悪といっても、四六時中切れ目なくいつでも自分を嫌い続けているわけではなくて、何かしら特定の条件下での自分を嫌うというだけなわけです。私の理解が正しければ、すぐれて仏教的な発想だと思いました。嫌いな自分という確固たる実体があるわけではなく、ある条件に応じて発生している現象にすぎないのであって、その条件がなくなってしまえば嫌いな自分というものも現れなくなるということです。

問題が発生したときは、自分が駄目なのだと思うのではなく、克服する良い機会だととらえて勇気を持ちましょう、と力強く励ます法王。いいなあ。

本当は、近所のお寺とかでこういうアドバイスをくれる人がいるといいのかもしれませんね。

広告