2012年8月アーカイブ

一つ前の記事で紹介した『銀輪の巨人』を、私はSony Readerで読みました。

読んでいて気になったことがあります。それは、一部に外字が使われていることです。なぜそうと分かるかというと、外字の部分だけフォントデザインが異なるからです。デザインがぱっと見てすぐ分かるほど違うかどうかはものによるのですが、本書の場合はだいぶ風合いが異なりました。

例えば次の画像のような語句が本文に表示されています。これはSony Readerの画面をデジカメで撮影したもの(をトリミングしたもの)です。

外字を使った本文の例

「漳州」と記されているのですが、「漳」の字だけ感じが違います。この字はJIS第3水準、面区点1-87-08です。JIS X 0208にない字が外字扱いされているものと想像できます。

外字でも何でも、表示できているのだからいいのではないか、と思う人もあるかもしれません。しかし、外字であることの弊害は割と簡単に実感できます。

Sony Readerでは、付属のタッチペンでなぞってマーカーをつけることができて、マークした箇所は一覧表示できます(紙の本に付箋をはさむような要領で使えます)。試しにこの外字を含む語句をマークしてみます。実は上記の画像はマーク済みで、そのため「福建省の漳州」という語句の背景が濃くなっています。

マークした箇所の一覧表示を表示させると、残念なことに、次の画像のように見えてしまいます。

note.JPG

外字の箇所がゲタになっています。この表示画面は外字に対応していないわけです。

なんでも外字を使ってやれ、という方針でいると、こうした問題が出てきます。

Sony Readerは電子書籍ならではの検索機能があって、テキストエディタなどと同じように、入力した文字列を検索できます。しかし、外字が入力できないことは容易に想像がつくでしょう。

こうしたとき、外字をいつでも通用するように努力するのは無理筋な考え方で、外字を使わずに済むようにするのが適当でしょう。

文字コードとしてUnicodeを使うようにすればこうした文字はもちろん外字でなくなります。また、JIS X 0213であっても、多くの文字は外字でなしに表現できるようになります。本書『銀輪の巨人』は台湾に関する書籍だけあってJIS X 0208にない字がいくつも現れますが、私の見た限りではJIS X 0213を使えば全部表現できます。

【2012年9月8日追記】後で確認したら、1文字だけ、JIS X 0213にない漢字が使われていました。門がまえの中に品と書く字(U+95C6, 闆)で、「老闆(社長さん)」という文脈で現れていました。中国語でしょうか。

符号化にUnicodeを使ったとしても、現実問題としてどの範囲の文字を標準的にサポートするかを決める必要はあるでしょう。今まではJIS X 0208の第1・第2水準漢字をベースラインとしていた習慣があったかもしれませんが、書籍にはJIS X 0208は明らかに不十分です。JIS X 0213の文字に対応することが是非とも必要です。

なお、ATOK, Anthy, SKKといった日本語入力プログラムの第3第4水準辞書を使えば、「しょうしゅう」という読みから「漳州」に変換することができます。こうした利便性も、JIS X 0213に対応した賜物です。

OEMや工場移転によって生産基地を安い労働力がある東アジアの各国に移したあと、時間をかけて技術やノウハウを吸収され、最後には技術力だけでなく、肝心の商品開発力やブランド力においても、こうした後発の企業に追い抜かれ、そして再び追いつくということが不可能になってしまうプロセスである。

これはある本の一節です。どの業界の話をしているのか分かるでしょうか。家電? エレクトロニクス製品?

実はこれは日本の自転車業界にかつて起こった話です。上の引用文は、『銀輪の巨人(ジャイアント)』(野嶋剛 著)という本から抜き出したものです。この部分だけ見ると、あたかも、韓国や台湾企業の勢いに遅れをとっている日本の電機業界か何かの議論のようです。実際著者は、「日本の自転車産業が歩んだ道のりを、日本のお家芸であった電機業界もとうとう周回遅れで歩み始めたのではないか、と思えてならない」といっているのです。

本書は、世界最大の自転車メーカー、ジャイアントについて書かれた本です。自転車の好きな人なら誰でも知っている企業ですが、そうでなければ恐らく知る人は少ないでしょう。どこの国の企業だと思いますか? イギリス? フランス? アメリカ? いいえ、実は台湾の企業です。

ジャイアントは台湾の小さな町工場としてスタートして、アメリカの名門企業から受注することに成功してOEMメーカーとして成長し、中国市場にいち早く目をつけ、高級自転車で欧州に乗り込んでいき、ついには世界一にまでなりました。本書にはその過程が記録されています。

そして本書は単なるジャイアントの出世談ではありません。かつて繁栄した日本の自転車業界が今や見る影もなく衰退していった過程を、現在苦境が喧伝される電機業界と重ね合わせて見ることによって、日本の製造業全体に警告を発する書なのです。日本の電機業界の今日の苦境とは、かつて自転車業界が経験した、予見可能であったはずの状態なのです。

日本の自転車業界は中国製の激安粗悪ママチャリに席捲されました。一方、台湾では、ジャイアントの経営者自らがサドルにまたがって台湾をサイクリングするイベントを行うなど、台湾社会に自転車文化を根付かせるべく活動した結果、休日にロードバイクなどに乗ってサイクリングを楽しむ人が増えているといいます。単に製品を作って売れるのを待つだけでなく、高級自転車の市場を自ら作り出す努力をしているというのです。

我が国の電機業界、あるいはもっと広く製造業の人には、ぜひ本書を読んでほしいと思います。文句なく面白い本ですし、なにより、自転車という別の世界の話が、いかに身近に感じられるか、驚くことでしょう。

なお、ひとつ補足しておくと、日本の自転車業界が衰退したというのは主に完成車の話であって、部品メーカーとしては、自転車界のインテルことシマノ (大阪・堺) が、世界のトップに立っています。ジャイアントだけでなくシマノも大変興味深いメーカーです。

北海道に行ってきました。

函館市の道の駅「なとわ・えさん」で、JIS第4水準漢字を見かけました。

函館市の道の駅の看板

上の写真に、「𩸽」と書かれています。当ブログではもうすっかりお馴染みのJIS第4水準漢字です。JIS X 0213の面区点位置2-93-44、UnicodeではU+29E3Dにあります。

「根𩸽」と書かれています。以前にも書いたかと思いますが、根ボッケというのはホッケの中でも特に美味しいものです。見かけたらぜひ食べてみてください。

過去の記事「ホッケという魚と漢字」や「日本の果てまでイッテ第4水準漢字」などで何度も目撃情報を記しています。

これだけあちこちで見かけると、この字は第4水準でなく第3水準でもよかったのではないかと思えてきます。あちこちといっても北海道ばかりじゃないかといわれるかもしれませんが、北海道は我が国の国土の2割以上を占めているので、極端に狭い地域に集中しているわけではありません。

北海道へ行った際は、この字が使われていないか、注意して見てみてください。

ちなみに、この道の駅は、函館の市街地から東の方、恵山(えさん)という火山を望む海沿いの所にあります。この山はツツジの多いことでも知られ、自然公園に指定されています。

今回撮影した、恵山と海を望む写真をつけておきます。

Mt. Esan and ocean / 恵山と津軽海峡

恵山の山頂の方のアップはこちら。

Mt. Esan / 恵山

文字数制限

| コメント(0) | トラックバック(0)

この前、ちょっと古めかしい感じのするウェブアプリを使ったら、テキスト入力欄の脇に「100バイトまで」のような注記が添えられていて、なんともいえない気持ちになりました。

まあ、意図するところはわかります(少なくとも私には。そして多分これをお読みの貴方にも)。わかるけれども、もうさすがにこれはないんじゃないか。

これは、「コンピュータで使える文字には1バイトのハンカクモジと2バイトのゼンカクモジとがある」という、古き良き時代の、今では通用しない発想に基づいているのでしょう。

そもそも原則的なことをいえば、1文字が何バイトかなんていうことは、利用者は知りようがない。かつては、全角に見える文字は2バイト、半角に見える文字は1バイト、という概念があったわけですが、それは過去のある時期のコンピュータの実装にすぎないわけです。

用いる文字コードによって、同じ文字でも要するバイト数は異なります。念のため具体例を見てみましょう。

  • 「亜」はUTF-16では2バイト、UTF-8では3バイト、UTF-32では4バイト
  • 「÷」はISO/IEC 8859-1では1バイト、EUC-JIS-2004では2バイト
  • 「𩸽」は、Shift_JIS-2004では2バイト、EUC-JIS-2004では(SS3制御文字こみで数えると) 3バイト、UTF-{8|16|32}では4バイト

UTF-8やUTF-16が盛んに使われている現在、1文字何バイト、と、単に文字の種類だけから決め打ちにすることはできません。

さらに、Unicodeの場合は結合文字があるので話がややこしくなります。「が」というのは普通は1文字と数えますしUnicodeにもそれ用の符号位置U+304Cがありますが、一方で、「か」U+304Bと合成用濁点U+3099の2つの符号位置の列でもって「が」を表すことも可能です。UTF-16でいえば、「が」に対応するバイト列が2バイトかもしれないし、4バイトかもしれないということです。

こうなると、「何バイト以内」を人に数えさせるというのは全く意味をなさなくなります。

(余談ながら、Unicode 2.0の仕様書では、第1章の1行目で高らかに「The Unicode Standard is a fixed-width, uniform encoding scheme」とうたいあげており、同じページにはUnicodeの特徴を表す図として「Wide ASCII」とキャプションの付いた図を掲げて、いかにもUnicodeが16ビット固定長、16ビット版のASCIIであるかのように印象付けていますし、2.2 Unicode Design Principlesという節では「Sixteen bit characters: Unicode character codes have a uniform width of 16 bits.」と断言しています。ちなみにこのバージョンではサロゲート領域が定義されています)

利用者に見せる文言として「何バイト以内」という書き方はさすがにあまりしないにしても、データの格納領域の都合などで制限をしたいことはあるでしょう。そういうときは「何文字以内」のように書きたいわけです。しかし上記のようにUnicodeでは見かけの文字数とバイト数との間に明確な対応関係はないので、ASCIIとJIS X 0208だけ考えていればよかった昔のようにはいきません。

Twitterはご存じのように「140字以内」といっているわけですが、ここに同様の問題があります。これに関して、興味深い投稿を見かけました。

チベット文字はインド系文字に分類され、中心となる字の周囲にいろいろ文字や記号をくっつける構成をとります。その小さな構成要素のひとつひとつがUnicodeでは合成用の符号位置であるわけです。なので、1文字分の幅のところに3つも4つも符号位置が組み合わさっていることがあります。そのため、140文字といっても、チベット語を書くにはずいぶん少ない。中国語はあんな複雑な漢字が「1文字」扱いされてるのに...という不満です。(興味のある方は、上のリンク先のウェブページの中のチベット文字をテキストエディタなどにコピーして、バックスペースキーで1文字ずつ消してみたりすると面白いでしょう)

私の記憶では、以前Twitterの入力欄は、残り文字カウントが「140」のところに「𩸽」を入力すると一気にカウントが2減って「138」になりました。サロゲートを使う文字は2文字分に数えられていたわけです。しかし今では、この字は「1文字」ぶんとしてカウントされるようになっています。改良したのでしょうか。

しかし結合文字を使う場合は、やはり、1つの符号位置が「1文字」扱いされているように見えます。それで上記のチベット文字の不満も出てくるわけです。日本語の関係でいえば、鼻濁音の「か゚」のような字、これはUnicodeでは合成用の半濁点を使って2つの符号位置で表すのですが、これもTwitterでは「2文字」扱いになります。本当に「人が見て認識する1文字」単位にするには、結合文字の扱いを考慮する必要があるわけです。なお、チベット文字の「1文字」がチベット語話者の立場から通常どのようにとらえられているのかは私には分かりません。

もうロンドンオリンピックも終わってしまいましたが、開会式のとき、選手入場の国名のプラカードにJIS X 0213の文字が使われているのが目を引きました。

どうやらコートジボワールだったようです。「Côte d'Ivoire」と綴ります。フランス語です。この「ô」という字は、JIS X 0213の1-09-74にあります。ほかの国は英語綴りで国名が記されているのに、この国についてはフランス語で、ôという英語で使わない字がいきなり出てきたので注意を引かれたわけです。

この国名は以前は「象牙海岸」と訳されていましたが、今は「コートジボワール」とフランス語のまま用いるようです。Wikipedia情報ですが、フランス語のまま国名として用いることを、同国政府の方針として各国に要請しているようです。それで英語文脈でも、上記のフランス語がそのまま使われているのでしょう。ただ、ウェブを検索したところでは、英語ではIvory Coastという翻訳名が使われることもまだ多いようです。

世界の国名を綴るためにも、JIS X 0213の文字がいつでもどこでも使えることが必要ですね。

今年はセミが少ないような気がしていたのですが、8月に入ってからセミの声をよく聞くようになりました。

セミが羽化する様子は、これまで見たことがありませんでした。今回、ちょっと頑張って探して、観察してみました。

セミの幼虫は、日没頃に地上に上がってきて、夜の割と早いうちに羽化するのだそうです。深夜まで待つ必要はありません。

羽化する幼虫を探すコツは、木の周囲にポコポコと小さな穴の空いている所を見つけるのだということです。それは幼虫が地中から出てきた穴なので、多くあればそこには幼虫が多くいるのだと。

今回、桜の木の幹をよじ登っているセミの幼虫を見つけられました。幼虫はしばらく同じあたりをうろうろしていたのですが、迷った末にいい足場を確保できたのか、じっと動かなくなり、それからまたしばらくして羽化が始まりました。

Begin to emerge / 羽化開始

背中の上の方が割れて、中から出てき始めました。

頭が出る

頭が出ました。

そりかえり

上体が出た後、しばらくぶらーんとぶら下がっていました。血が頭に上りますよ。このとき強い風が吹いて、落っこちてしまわないかと心配しました。

抜け出る

おもむろに上体を起こして、いよいよ全身を出そうとしています。

Brand-new world / まあたらしい世界

ついに、全身が抜け出ました! 少しずつ羽がのびてきています。羽化直後は緑色なんですね。

Emergence process of a cicada / セミの羽化の過程

過程を一枚の画像にまとめてみました。

羽化を見届けると、達者で暮らせという思いが出てきます。たとえ一週間かそこらの命にしても。

募集と応募

| コメント(0) | トラックバック(0)

あるITニュースサイトを見ていたら、ちょっとひっかかるところがありました。

「××省は......応募を実施していた」と書かれています。これは「応募」でなく「募集」なのではないでしょうか。その後に続けて「××件の応募から××件の企画を選定した」と書かれているので、やはり××省は応募する側でなく募集する側であったことが読み取れます。

「募集」は読んで字のごとく「つのりあつめること」(広辞苑第六版)です。「応募」は「募集に応じること」(同)。「応」の字が入っていることから、こっちが「応じること」であるのが分かります。

ただ、きちんと考えれば理屈では分かることでも、直感的にはなんとなく紛らわしい、あれどっちだっけ、となりがちなところかもしれません。

これで思い出したのですが、「募金」という言葉にも同様のことがいえると思います。

「募金」は、字からも分かるように、「寄付金をつのること」(同)です。街頭で募金箱を持ってよろしくおねがいしまーす、とやるのは募金活動です。が、その募金箱にお金を入れることを「募金」と呼ぶことを、日常会話のレベルではよく見聞きします。これは本当は違いますね。お金を入れるのは寄付であって、寄付金を集める行為が募金であるわけです。

上に見た「募集・応募」にしろ「募金・寄付」にしろ、混同しやすい共通の構造があるのでしょうか。

日常会話では文脈から判断がつくのでいちいちうるさいことはいいませんが、メディアにのる文章などでは気を付ける必要があります。

縦書きと矢印

| コメント(0) | トラックバック(0)

私は職場のWindows PCではいまだにMS Office 2003を使っています。2003というと、9年前ということになります。もっと新しいバージョンも出ていますが、基本的な機能は2003で大体完成されているように思えます。そういう古いバージョンを前提として以下には書きます。

WordやPowerPointには縦書きの機能がありますが、今まで全くといっていいほど使ったことがありませんでした。この前、文字を縦に並べたいことがあったので縦書きの機能をちょっと使ってみて、あることに気付きました。

それは矢印の向きです。横書きで「←」と表示されているものを縦書きにすると、見た目には「↑」となるのですね。「→」は「↓」になります。90°回転させた状態といってよいのでしょう。「↑」と見えているものをコピーしてメモ帳などにペーストすると「←」になります。

こうなっている理由は何となく分かります。例えば、「旭川→稚内」という字面を縦書きにするときは、矢印は右向きのままでなく、下を向いてほしいわけです。そういう使い方に合わせているということなのでしょう。

ただ、このやり方では、「画面上の【←】ボタンをクリックして...」といった文章ではおかしなことになります。このときは、矢印の向きは、縦書き横書きに関わらず、画面の左側そのものであってほしいわけです。

以前からなんとなく思っていたのですが、矢印には実は2種類の使い方がある。ひとつは、版面というか表示面の上下左右そのものをさす意味、もうひとつは、文字の進行方向を指す意味。前者は、上記のボタンの例、後者は、「旭川→稚内」の例にあたります。

横書きなら横書き、あるいは縦書きなら縦書きで通しているときは、両者の物理的に指す向きは一致するのですが、縦書きと横書きを変換しようとすると問題になってくるわけです。

上記のMS Officeは (というか縦書きフォントの設計の問題なんでしょうか)、文字の進行方向という意味を優先させた実装なのでしょう。ちなみに、数学記号を本来意図している「⇒」は縦書きでも右を向くようです。

常用漢字表には、字の形が載っているだけでなく、音訓もついています。新聞社などは原則的にここに載っている読みを用い、それ以外の読みをする場合にはルビを振ったりするようです。JISでも、2010年の改定前のことですが、常用漢字表に「須」の字が入っていなかったために「必須」という漢字に読み仮名が振られていたのを見た記憶があります。

「御」という字については、「ギョ」「ゴ」「おん」という3つの音訓が記されています。漢字辞典を引くと、「ギョ」は漢音、「ゴ」は呉音とのことです。ゴはゴ音なんですね。訓読みに「み」がないので、例えば「神の御心(みこころ)」というときには、新聞などでは読み仮名を振るか仮名に開くかするのでしょう。

ここでちょっと気になるのは、「おん」はあっても「お」はないことです。はて、「お」と読むことは普通でなかったっけ。そう思って国語辞典にあたってみると、「おれい」というごく普通の言葉について「御礼」という漢字表記が記されています。「おれい = 御礼」なら、「御」の部分は「お」と読むのだということでしょう。でも、常用漢字表に「御 = お」はない。この読みは難しくも専門的とも思われませんが、なぜなのでしょう。

そう思って改めて常用漢字表を見ると、「御」の字の「おん」の読みの例として、「御中、御礼」とある。「おん」の読みに対応させて載せているからには、ここでは「おんれい」と読むことが想定されているのでしょう。

それで再び国語辞典 (広辞苑第六版と大辞林第二版) に戻ってみると、今度は、「おんれい = 御礼」という言葉が載っていないことに気付きました。「おんれい」という見出し語はないし、「おれい = 御礼」の項を見ても、「『おんれい』ともいう」といった注釈があるわけでもない。はて。「厚くオンレイ申し上げます」のような言葉は聞かないだろうか。なんだか自分の言語感覚に自信が持てなくなってきました...。いやいや、そういう言い方をするからこそ、常用漢字表には「御礼 = おんれい」が載っているんではないか...。

疑問点を整理すると、

  • 常用漢字表に「御」の読みとして「お」がないのはなぜ?
  • 国語辞典に「御礼 = おんれい」が載っていないのはなぜ? (常用漢字表の例には載ってるのに)

というところでしょうか。

ありふれた文字なのに、こんな疑問が出てくるとは、意外でした。

【追記: 国語辞典で接頭語としての「おん = 御」をひいてみたら、例として「-礼」というのが載っていて、「御礼 = おんれい」がここに含まれることがわかりました。でも、独立した見出し語として載っているのは「おれい」であって「おんれい」ではないんですね。】

ロンドンオリンピックの報道の中に、JIS第4水準漢字を外字扱いしているものを見かけました。

nikkansports.comの記事「バドミントン無気力試合で4組失格」の中に、韓国選手の人名として「金■貞」と記し、後の方に注釈として「部首の「日ヘン」に文」としています。

日へんに文とは、JIS第4水準の「旼」でしょう。JIS X 0213の面区点位置2-13-84にあります。「金旼貞」という名前なのでしょう。

この字は漢字源によると、ビンとかミンとか読むそうです。訓読みは載っていません。「旼旼(ビンビン)とは、なごやかなさま」と説明されています。第2水準の「旻」とは、構成が違うだけですが、別字とのことです。

JIS漢字字典によると、人名用例としてヒフミとかフミといった読みの例があるそうです。人名以外の用例が見えないので、人名を主な根拠として採録されたのでしょうか。

この字は、第3第4水準辞書では、「みん」と入力してから変換キーをたくさん押すと出てきます。あまり分かりやすいとはいえませんが、ともかく入力することは可能です。

今回の上記のニュースは、オリンピックのバドミントンの試合で、わざと負けることを意図した「無気力試合」があったという話です。英語のニュースサイトに問題の試合の動画があったので見てみたのですが(Eight Badminton Players Kicked Out Of The Olympics For Throwing Matches)、およそ試合の体をなしていないことに驚きました。

あるウェブサイトで「さったホール」という表記を見て、頭の中で警報音が鳴り始めました。

リンク先をたどってみたら、やはり、漢字表記は「薩埵ホール」でした。「薩埵」の「埵」の字がJIS X 0208にない、JIS X 0213の第3水準漢字なので、平仮名で書かれていたようです。この字の面区点番号は1-15-51です。

これは東京・市ヶ谷の法政大学の施設です。薩埵ホールという名称は、法政大学の前身・東京法学社の設立にかかわった一人、薩埵正邦の名に由来するようです。

以前、法政大学のセミナーか何かの案内の電子メールを受け取ったときに、文面の中に「薩た」と書かれていて、その字面を奇異に思ったことがあります。ISO-2022-JPでは「埵」の字を表せません。

第3第4水準辞書では、「さった」から「薩埵」に変換できます。法政大学関係者の方もぜひお試しください。(なお、法政大学のウェブサイトではUTF-8を使っていて、「埵」の字も文字参照などでなく文字そのものとして符号化しています)

名字としての「薩埵」が何に由来するのかは私は知りませんが、仏教でいう「菩提薩埵」(梵語bodhisattva、菩薩)にも同じ字が使われます。この言葉は般若心経にも出てきます。般若心経にも第3水準漢字は必要なわけです。また、「薩埵峠」という峠が静岡県にあります。これらの「菩提薩埵」や「薩埵峠」も、第3第4水準辞書があれば、なんなく普通に変換できます。第3第4水準辞書は、今や必需品といって良いでしょう。

広告