2012年6月アーカイブ

この前Twitterを見ていたら面白いツイートを見かけました。

ツイートの内容はこの際おいとくとして、「袁さん」と記されているのが気になります。これは氏の袁に敬称の「さん」を付けているのでなく、「袁傪」という名前なのだけども「傪」という字が入力できなかったので平仮名にしたものでしょう。

この「傪」はJIS第4水準、面区点番号2-01-79にあります。第3第4水準辞書を使うと、「えんさん」から「袁傪」に変換できます。教育関係者の方もぜひお試しください。

中島敦「山月記」にはこのほかにもJIS X 0213の文字が出てきます。青空文庫からダウンロードしたテキストファイルを見たところ下記のものがありました。

  • 二の字点「〻」、1-2-22
  • 地名「虢略」(かくりゃく)の「虢」、第3水準1-91-48
  • 漢詩の中、「軺」、第3水準1-92-44
  • 漢詩の中、「嘷」、第4水準2-04-33

この作品は学校の教科書にも載っていて大変に有名です。私も高校の国語の授業で読んだ覚えがあります。

このことからも、第3第4水準文字コードの必要性が分かるでしょう。

このところ私のUbuntu Linuxの音楽再生ソフトRhythmboxで音楽CDをリッピングしようとすると、CDの曲名などの情報をうまくネットから引いてきてくれないので、おかしいなと思っていました。以前は日本のCDでも情報を取りこめたはずです。いつ何が変わったのか分かりませんが、いつのまにか全然取得できなくなっていました。

それで、代替のソフトを探してみました。

ところが、これが案外うまくいかないもので、ちょっと苦労しました。試したものは下記のとおり。

  • Amorak
  • Banshee
  • Sound Juice
  • Asunder
  • Audex

これらのうち、うまくCD情報を取得してリッピングできたのは最後のAudexだけでした。ほかのは、使い方が分からなかったり、Rhythmbox同様にCD情報が取れなかったり、はたまた情報は取れてもリッピング最中にフリーズしてしまったりと、なかなか難儀しました。

Audexでは、以前からやっていたように、リッピングしてOgg Vorbis形式にエンコードすることができて、Rhythmboxに取り込んで再生することができました。日本字のファイル名も扱えます。まだちょっと試しただけなので、どこかに落とし穴があったりするかもしれませんが、今のところはうまくいってそうに見えます。

こういう手間の絶えないのがLinux環境ですが、まあ、ノウハウを蓄積していくしかないのでしょう。

電子書籍が話題になるよりだいぶ前から、辞書は電子化が進んできました。電子辞書はもうすっかりお馴染みになっています。

電子辞書というと、手帳ぐらいの大きさの専用機として作られているものを思い出す方が多いかもしれません。そういうのも勿論便利です。紙の本を読んでいるときに言葉を調べたくなったら、私も専用の電子辞書を使います。

一方PCで文章を書いているときにはそうした機器を使うのは便利とはいえません。そうしたときは、PCのハードディスクにインストールされている辞書を使います。この記事で話題にしたいのはそちらの形態の電子辞書です。

私はメインに使っているデスクトップのLinux機に、CD-ROMの形で購入した国語辞典と英語辞典を入れて、何かあるとすぐに検索できるようにしています。Linux用にはEBViewというオープンソースの辞書検索ツールがあり、私はこれを活用しています。EBViewはEPWINGというJISにもなっている業界標準の辞書フォーマットを扱うことができます。EPWING形式の辞書データを複数インストールしておけば、それらの辞書をいっぺんに引くことができます。Windows用にも、DDwinやEBWinといったEPWING対応の辞書ツールがあります。

つい先日、久しぶりに新しい辞書を購入してインストールしました。広辞苑第六版です。広辞苑は以前からEPWING形式で辞書を提供してくれているので助かります。EPWINGであれば、Linuxで使えますし、検索ツールも複数あります。アプリやOSが変わってもデータはより長く生き延びると期待できます。

しかしながら、この頃は、EPWING形式で格納されたCD-ROMの辞書があまり供給されない傾向にあるようです(また、EPWINGまわりのフリーなソフトウェアの環境整備も、最近はあまり活発でない印象を受けます)。これは困ったことだと考えています。

どうしてなのかはよく知りませんが、考えるに、先に述べたような専用機としての電子辞書や、PCに同梱される形での供給が増えて、CD-ROMやDVD-ROMの形で販売する重要性が以前よりも減っているのかもしれません。携帯電話やタブレット機器に国語辞書や英和・和英辞典が搭載されていることもあります。はたまた、ウェブのポータルサイトから無料で検索できるようにしている辞書もあります。

また、CD-ROMを出している会社であっても、共通フォーマットのEPWINGでなく、独自フォーマットを用いているところもあります。こうした場合、辞書の検索には専用ソフトが必要になります。これはUNIX系OSの利用者には大変困ったことです。大抵の場合WindowsとMacだけしか対応しないからです。また、Windowsであっても、専用ソフトを用いる場合は他のEPWINGの辞書と一緒に検索することができず、不便です。

専用ソフト込みで販売したい企業にはそれなりの理由があるのかもしれませんが、利用者としては嬉しいことではありません。利用者にとって本当に価値があるのは、お仕着せの検索アプリではなく、辞書データそのものなのです。

独自フォーマットを専用ソフトで扱う形態だと、辞書の寿命がソフトの寿命に押さえられてしまうという問題もあります。Windows 95専用に作り込まれたソフトがあったとしても、Windowsが98、XP、Vista、...と変わるうちに、実行できなくなり、開発元のサポートもなくなったら、内蔵されているデータも埋もれてしまうわけです。データの中身は10年20年と通用するものかもしれないのに、アプリもろとも日の目を見なくなってしまうのは勿体ないことです。

EPWINGのフォーマットそのものが良くできているかどうかは、私はよく知りません (外字がしばしば使われているので、第3第4水準文字コードへの対応は課題の一つでしょう)。それはそれとして、特定企業の占有物でない、誰でも使えるフォーマットであるということが、肝心なことです。

共通フォーマットたるEPWING形式の電子辞書は、確実に、知的作業に資するものです。辞書を供給される方には、是非ともEPWINGでの提供を考慮してほしいと私は強く願います。いい辞書は積極的に購入して買い支えますから!

【参考】

この前テレビを見ていたら、確かテレビ東京の旅番組だったと思うのですが、ナレーターを表す字幕に「鈴木渢」と出ていてオヤと思いました。

「渢」は、JIS X 0213の第4水準漢字、面区点番号2-78-79にあります。

ウェブを検索してみて分かったのですが、この人はナレーターや声優として活躍している方のようです。芸名なのでしょうか? 所属事務所のページと思われるものがありました。読みが「すずき ふう」と記されています。このページではHTMLの文字参照を使ってこの字を表しています。

第3第4水準文字コードを使えば文字参照でなしに直接に渢という字を符号化できますし、第3第4水準辞書を使えば「ふう」から「渢」に変換できます。表示の上では第3第4水準フォントがインストールされていれば大丈夫です。

この字を漢字源で引くと、「ふるえるような水の音の形容」「大きいこえ。また、響き」「渢渢(フウフウ)とは、風のようにふるえる音の形容」と記されています。

この字をウェブ検索するとなかなか面白いです。上記の鈴木渢さんのほかに、東京の飲食店の名前に使われていたり、イラスト投稿サイトのユーザー名の一部に使われていたり、ウェブサイトの利用者のハンドルの一部に使われていたりします。水と風という字の成り立ちから好ましいイメージが持たれて名前に使いたくなるのでしょうか。Wikipediaには布目潮渢(ぬのめ ちょうふう)という学者の名前も見られます。

ここ南関東では、5月の気候の良い時期があっという間に過ぎていき、湿気の多い梅雨の季節となりました。

雨が多いのは不快で陰鬱ですが、この時期の楽しみであるアジサイを見に鎌倉に行ってきました。梅雨入りしたばかりですが、ちょうど今日は昼間晴れていました。

行ってみたのは、江ノ電の極楽寺駅から近い、成就院(じょうじゅいん)。ここはアジサイの植わった坂道の向こうに海が見えるので有名な所で、テレビでも取り上げられていました。

Hydrangea and seashore / アジサイと海

これがその有名な場所です。6月前半ということで、アジサイの最盛期にはまだ達していないようでした。それでも人が大変多い。写真にはなるべく人が写らないようにしたのですが、それでもこれが限度でした。

人が多くてせわしない成就院を抜けて海の方へとなんとなく歩いていたら、御霊(ごりょう)神社という神社にアジサイがあるよという意味の案内板が出ていました。すぐ近くなので立ち寄ってみることに。

するとここは、規模はだいぶ小さいものの、いろいろな種類のアジサイが植えられていることが分かりました。

Small hydrangea / 小さなアジサイ

小さく赤いアジサイ。

Blue hydrangea / 青いアジサイ

青くて八重のようになっているアジサイ。

Hydrangea / アジサイ

見たことのない種類ですが、これもアジサイ。名札がかかっていたのですが、何と書かれていたか忘れてしまいました。

Hydrangea / アジサイ

グラデーションが綺麗です。

アジサイを見た後、まだ晴れていたので、海の方へ歩いて行ってみました。空が青くて、海の上に帆が並び、いい感じです。

海の見える丁字路

御霊神社の方から歩いてきたところ。もうすぐ海!

Sails

ウインドサーフィンが行ったり来たり。

A lady

砂浜で子供たちが遊んでいました。

このときは晴れていたのですが、海を後にして帰宅すると、風がひんやりしてきて雨が降り出しました。これからしばらく、雨と付き合っていかざるを得ません。

北海道日本ハムファイターズ・稲葉篤紀選手の電子書籍『僕の夢、僕の生き方 Aiプロジェクトの軌跡』を読みました。

稲葉選手は以前ヤクルトスワローズで活躍していました。アメリカ大リーグに挑戦しようとしてかなわず、 いつでも待っていると声をかけられた日本ハムに移籍することになりました。移籍後、チームのリーグ優勝や日本一に貢献してきたことはよく知られているでしょう。札幌ドームで見られる「稲葉ジャンプ」という独特の応援も有名で、ファンに親しまれていることが分かります。

その後、自分を温かく迎え入れてくれた北海道のファンに恩返しがしたいと、いろいろな活動をするようになりました。

札幌ドームになかなか試合を見に来られない遠くのファンとも交流したいと、北海道の各地に出向いて、野球教室やトークイベントを行ったり、児童施設や福祉施設を訪問したりしているそうです。

子供たちに直接野球を教えるだけでなく、指導者向けの講習会もやったということです。小学生にしっかりした野球の基礎を身につけてもらうには指導者に基礎的な知識を知ってもらうことが必要だと考えてこうした講習会を開いたとのこと。本当に何が必要か、大事かということが、よく考えられていると思いました。

全道各地の小学校にリレーのバトンを寄贈するプロジェクトも行っているということです。野球選手なのでバットやグローブでも良かったのですが、女子児童など野球をしない子供たちも多いので、バトンなら皆使うだろうということでバトンになったのだそうです。こういう配慮はいいですね。

本書には、こうした活動の具体的なエピソードや、込められた思い、考えなどがよく記されています。真摯に取り組んでいる気持ちが伝わってくると感じました。ぜひ読んでみてほしいと思います。

なお、本書は紙の書籍でなく、電子書籍だけのようです。Sony ReaderやiPadなどで読めます。

先日、私の使っているWindows XP機で、Firefoxの日本語入力にトラブルがありました。事実上日本語入力ができない状態になったので、かわりのブラウザとして、SRWare Ironを試してみました。まあ別にIEでも良かったのですが、この機会に試してみようということで。

Ironとは何かを一言でいうと、Google Chromeから固有IDなどプライバシー上の懸念を取り除いた、「より良いChrome」だといえるでしょう。Chromeは、マシンにインストールすると固有のIDを発生させ、そのIDをいちいちGoogleに送信します。IronはChromeと同じくオープンソースのChromiumを元にしていますが、こうした固有IDのようなプライバシー上の懸念につながる機能は入っていません。

SRWareのサイトに、ChromeとIronの機能上の比較表があります。よく見てみるといいでしょう。

ただ、私はWindows XPの文字表示を綺麗にするためにgdippを使っているのですが(参考: Windows の文字表示を改善するgdipp)、何かの理由で、gdippが効いているとIronの(多分Chromeも)の文字表示が汚くなってしまうようです(ウェブをざっと検索するとgdipp側の問題らしく書かれたページがあります)。そのため、gdippの設定ファイルでIronを適用除外するようにしました。gdippの機能が活かされないので、文字表示はWindowsのデフォルトのちょっと残念な感じになってしまっています。

使っているウェブブラウザが1種類だと、そのブラウザに何か問題が発生したときに困ってしまいます。今後しばらくは、代替手段の確保という意味もあって、FirefoxとIronの2つを常に用意しておこうかと思います。

ちなみにSRWareというのはドイツの企業のようです。アメリカよりもプライバシーを重視するヨーロッパらしいといえるかもしれません。

参考記事:

先日、寬仁(ともひと)親王殿下が亡くなられましたが、宮内庁のウェブサイトを見ていたらあることに気付きました。

例えば宮内庁のサイトの寬仁親王同妃両殿下のページを見ると、「寛」でなく「寬」の字が使われています。右下の方の点の有無が違います。点のある「寬」はJIS第3水準、面区点番号1-47-58にあります。

そういう字を使うということはWikipediaにも記されているのですが、この宮内庁のサイトでは、UTF-8を符号化に使って、HTMLの文字参照などでなしに、直接文字として記しています。ウェブページのHTMLソースを見ると分かります。私はこういうとき、大抵HTMLソースを見て、文字参照でないかどうかをチェックします (いやな閲覧者ですね)。

宮内庁のウェブサイトを製作している人はどうやって文字を入力しているのか気になります。独自に辞書登録しているのでしょうか。ちなみに、第3第4水準辞書を使うと、「ともひと」から「寬仁」に変換できます。皇室に関心のある方も、是非第3第4水準辞書をご活用ください。

なお、文字コード以前の問題として、漢字のこうした細部の区別をいちいち要求するかどうかは、慎重であった方がいいと私は思います。この字の場合、点があってもなくても同じ字です。点のある字体を使うことは問題ないとしても、点のある字体でなければ失礼だとか正式でないとかいうのは、あまり感心しません。

文字コード的には、これはJIS X 0213:2000において「人名許容・康煕別掲」として「寛」と区別された符号位置です。Unicodeでは互換漢字だったかなと思ったらそうでなくて、CJK統合漢字の領域、U+5BECにありました(原規格分離のためでしょうか? 未確認)。

障害者福祉などのために活動される一方で自らの病気とも長い期間戦われた殿下のご冥福をお祈りします。

北海道新聞のウェブサイトを見ていたら、人名の一部を外字扱いしているのが目につきました。(「函館で芹沢展始まる 人間国宝 珠玉の111点」)

「日本を代表する染色工芸家で、人間国宝の芹沢★介(せりざわけいすけ)さん(1895~1984年)」とあります。「★は「金へん」の右に「圭」 」という注釈が付いています。

金へんに圭とは、「銈」ですね。この字はJIS X 0213の第3水準、面区点番号1-93-14にあります。

第3第4水準辞書では、「せりざわけいすけ」から「芹沢銈介」に一発で変換できます。

規格上は、もうこうした字を外字扱いする必要はなくなっています。後は実装をきちんとしていれば良い。第3第4水準文字コード第3第4水準フォント第3第4水準辞書の3つが、いつでもどこでも、どんなソフトウェア環境でも使えるようになっていることが必要です。

例えば、Emacs環境でいえば、Emacsが既に第3第4水準文字コードであるEUC-JIS-2004やShift_JIS-2004、UTF-8等に対応しており、jiskan16やIPAフォントなどのフォントが第3第4水準に対応しており、SKKを使う場合はSKK-JISYO.JIS3_4、Anthyで入力する場合はAnthy用の第3第4水準辞書によって文字入力が可能です。こうした環境が整備されていれば、「芹沢銈介」と入力してそのデータを処理、出力することがなんなくできるのです。

日本語をローマ字で書くときに重要な心構えがひとつあります。

それは、「ローマ字は英語ではない」ということです。平仮名で書こうが、ローマ字で書こうが、それは日本語です。日本語なのですから、日本語の表記法に則って書かなければなりません。

これは当たり前のように思われるかもしれませんが、しかし、人はしばしば、「英語話者が読めるかどうか」を気にしすぎることがあります。しかし、ローマ字は英語ではないのですから、訓令式であれヘボン式であれ、日本語ローマ字綴りの読み方の知識のない人には正しく読めません。それは特定のローマ字綴り方式の欠陥ではなく、本質的にそうであるということです。

確か、作家の佐藤亜紀氏のエッセイの中に、アメリカ滞在中に何度訂正しても名前のAkiを「アキ」でなく「エイキ」と発音されるので怒った、という話があったと思います。また、どこで読んだのか忘れましたが、「Kyoto」を「カイヨート」と読んだ人もあったそうです。どんな方式で綴ろうと、日本語のローマ字表記を正しく読むには日本語の知識が必要です。

これはどんな言語でも当たり前の話であって、例えば同じラテンアルファベットで書かれていても、ドイツ語とフランス語と英語では綴り方が違うので、それぞれの言語の知識がなければ読むことはできません。日本語にはまた日本語の綴り方があるというだけの話です。

日本語のローマ字表記というのは、日本語の知識のない人、特に英語話者が綴りだけを見て正しく発音できることを意図したものではないということです。それは日本語に限ったことではありません。スイスの心理学者のCarl Gustav Jungを英語風に読めば「カール・ギュスターウ゛・ジャング」とでもなるのかもしれませんが、正しくは「カール・グスタフ・ユング」と読みます。

それを前提として、ローマ字をいかに実践するかということを考えてみましょう。

元首相の小泉純一郎氏の名前「じゅんいちろう」を例にすると、訓令式とヘボン式とではそれぞれ次のように綴られます。

  • 訓令式: Zyun'itirô
  • ヘボン式: Jun'ichirō

見た目はだいぶ異なりますが、どちらも日本語のローマ字綴りとしては妥当なものです。ただ、パスポートの綴りと大きく異なることで何かトラブルが生じるのではないかと思って訓令式を避けてヘボン式の方を選ぶ人が多いかもしれません。ちなみに、パスポート式の綴り方のように「Junichiro」としてしまうと、日本語のローマ字綴りとしては「じゅにちろ」になってしまいます。

この例で問題になりそうな箇所を3点見てみましょう。ひとつは拗音「じゅ」、ふたつめははねる音(撥音)「ん」の後の母音、そして最後はのばす音「ろー」の部分です。

「じゃ」「じゅ」といった音にJの文字を使うのは巷間に広まっている認識だと思いますが、しかし以前の記事「拗音ローマ字表記のありがちな間違い」で述べたように、Jの字を使ってもヘボン式として正しくない綴り方をしてしまっているのを世間ではよく見かけます。(なお、アルファベットのJの字は言語によって発音が異なります。Jaと書くとドイツ語ではヤーと読みますし、スペイン語ではハのような発音になります)

はねる音「ん」は訓令式でもヘボン式でも基本的には n を使うので、上の例のように直後に母音字がくるときは区切る必要が生じます。それが上の例のアポストロフィ(')です。ただし駅名の表示ではこの目的にハイフンを使うことがあります。例えば東京の「田園調布」駅には「Den-en-chōfu」という表示があります。しかしこれは一見して分かるように、複数の単語(ここでは「田園」と「調布」)をつなぐためのハイフンとごっちゃになってしまって、うまい方法とはいえません。「Den-en」のハイフンが、「でねん」となるのを避けるためのハイフンなのか、それとも「でん」「えん」という2語(だったとして)をつなぐ意図なのかが字面からは分からないわけです。

そして長音を「ô」や「ō」のように表すことが必要です。これについては前の記事「パスポート式ローマ字の憂鬱」「長音符号つきのローマ字を入力する」に書いたので繰り返しませんが、第3第4水準辞書を使うとこれらの文字が入力できるということは繰り返し記しておきます。

さて、日本語のローマ字綴りで私にとって一番よく分からないのは、分かち書きの仕方です。これは私も自信を持っていうことができません。第一、文や長い語句をローマ字で書く機会が滅多にないので、分かち書きの経験を積む機会もありません。これは今後の課題としたいと思います。

最近、私がローマ字で日本語を記す機会が多いのは、Flickrにアップロードした写真に英語で注釈をつけるときです。例えば、東京都の大田区で撮った写真に「Ōta ward」といった説明を付けるといった具合です。これを「Ota ward」としてしまうと「オタ区」になってしまうので注意が必要です。Ōなどの文字を入力するのに、私は第3第4水準辞書を活用しています。皆さんも是非。

広告