2011年7月アーカイブ

この前Sony Readerを買って、私の電子書籍時代は一気に幕を開けました。

面白がっていろいろ買ったり読んだりしていたのですが、それで、どんな風に使うのか、どんな利点が期待できるのか、できないのか、を少し考えました。

まず期待できる利点の第一は、本を買っても (物理的な) 書棚が圧迫されないことです。私の家の本棚は常に逼迫、というか溢れている状態なので、この利点は大きい。「ちょっとチェックしておきたい」と思う本を書店で見掛けても、「ああでも置き場に困るしな......」という理由で二の足を踏むことがあります。これがなくなるということです。

それから、持ち運びが楽ということが当然いえます。何冊詰め込んでも、大きさも重さも変わらない訳ですから。

あと、使ってみて意外とあるかもと思ったのが、本をどこに置いたか探す手間が減る (のではないか) というのがあります。読みかけの本を読もうとしたときに「あれ、どこに置いたっけかな」となることが私はしばしばあるのですが (単にずぼらなだけか?)、電子書籍端末に全部入っていれば、端末自体をどこかに忘れない限りは、その中に必ず入っているというのは分かりやすい。ただしこれは私がまだ少ない数の本しか入れていないからかもしれません。本の数が増えたときにどうなるか、端末の中で探し辛くなってしまうのかは未検証ですが、Readerは本のタイトルから検索できるので、その機能に頼ることはできる筈です。

さて、期待できないことの筆頭は、長期間の保存だと私は思います。デジタルデータだから劣化しない、みたいな売り文句を電子書籍について見た覚えがありますが、データ自体は劣化しなくとも、データが丸ごと破壊されるとか、フォーマットが古くなって再生できる機械がなくなるとか、DRMのために読めないとか、そういうことは実にリアルに想像できます。クラウド型サービスなんてのがあっても、ビジネス上の理由でサービスが終わったらそれでおしまいです。達人出版会の高橋征義氏は100年残せる仕組みがないといっていますが、100年とまでいわなくとも、今の電子書籍は10年後でさえ怪しいのではないでしょうか。

こういう問題は、なんとかして解決してほしい話ですが、現時点では長期保存が期待できないのは仕方ないという前提で考えるよりないように思います。電子書籍を買うときは、紙の本ほどもたないという心積もりを持つ。将来何らかの理由で読めなくなっても構わないという本しか電子では買わないとか、本当に残したい本は重複して紙でも買うとか、そういうつもりでいるべきだと思っています。

これは技術というよりはビジネスや制度に依存するところの大きい話なので、すぐに解決するのは難しいでしょう。端末の解像度とか性能とか、純技術的な問題というのはそのうち解決されると楽観できますが、ビジネス的制度的な問題というのはそれより解決に時間がかかる。

だから、電子書籍で薔薇色の未来がくるという風に思うよりは、いろいろな問題を納得ずくの上で、自分にとっての利点を最大化できるような使い方を模索すべきものだと思います。

ホッケという魚は北海道のうまい魚というようにみなされることがありますが、元来は高い評価を得る魚ではなかったようです。

Wikipedia のホッケの項を見るとかつては不味い魚とされていたように書かれています。まあWikipediaのことなのでどれだけ本当かは分かりませんが。一方、北海道大学に勤めて世界初の人工雪を作った中谷宇吉郎博士の随筆には、この魚を「愚魚」と表現しているものがあり(「貝殻の歌」、昭和36年、『中谷宇吉郎随筆集』収載)、やはり上等なものとは考えられていない節があります。しかし、鮮度のいいものはうまいというようなことも書かれています。

今でも実際庶民的な魚ではありますが、うまいものは大変にうまいことがあるというのは、以前このブログに「函館で食べたホッケ」として記しました。

この魚はだいたい片仮名でホッケと書くことが多いのですが、漢字もあります。魚へんに花、「𩸽」と書かれます。これは魚へん漢字に詳しい人の間では割合よく知られたもののようで、以前テレビのクイズ番組に出題されていて回答者が正答していたということを、このブログ「テレビで見た第4水準漢字」に記しました。また、最近文庫で出版された本、『魚偏(うおへん)漢字の話』にも説明があります。この字は中国にはなく、ホッケの表面に美しい斑紋があることから魚偏に花となったとしています。

この字はどうも割とあちこちで見掛けるようだということは、このブログの過去の記事、「北海道で見た第4水準漢字」や「札幌・二条市場で見た文字」に記したとおりです。

この𩸽という字、文字コードとしてはJIS第4水準にあり、面区点番号2-93-44です。Unicodeでは、BMPでなく面02にあり、符号位置U+29E3Dです。

この、JISでは第4水準にあり、Unicodeでは面02にあるというのは、私が文字コードの実装をテストするうえでは大変重宝しています。JIS第4水準というのは、EUCの符号化ではSS3という制御文字の対応が必要であり、SJISでは区点番号からの計算式が第3水準までとは別の式を使わないといけないという特徴があります。きちんと第3・第4水準に対応しているかどうかのテストに使えます。また同時に、UnicodeではBMP外だということは、UTF-16ではサロゲート・ペア、UTF-8では4バイトのUTF-8に対応している必要があるので、これもやはりテストに丁度良い。

私がこの前このブログで「Kindleはホッケを食べられるか」という記事を書いたのも、そのあらわれのひとつです。

また、漢字自体が、「ああ、魚のホッケのことだな」と、意味が理解されやすいというのも、馴染みやすいということでは利点のひとつに数えられます。

こうしたことから、拙著『プログラマのための文字コード技術入門』では、第4章とAppendixの文字符号化の例として、この𩸽という字を便利に活用させていただきました。ホッケさまさまです。

今から10何年も前、JIS X 0213の開発作業が行われていた頃、JIS X 0208にない文字の用例が募集されていて、私もそれに用例を提供したことがあります。そのうちのひとつに、草下英明『星の神話伝説集』(教養文庫)という、星にまつわる世界の神話・伝説をコンパクトにまとめた本に見付けた文字の用例があります。

日本の天岩戸神話に触れたくだりに、「八尺の勾璁(まがたま)」という言葉があり、この「璁」という漢字がJIS第1・第2水準にはなかったのです。

この字は最終的に第4水準、面区点2-80-88に入りました。

第4水準はあまり必要でないと思っている人もいるかもしれませんが、こんな風に、よく見ると時たま本などに出てくるのです。

当ブログでは私が日常生活の中で見かけた第3・第4水準漢字の例を挙げています。JIS X 0213のタグをつけた記事を追っていくと分かるでしょう。その中の頻度としては、第4水準は、第3水準よりは少ないけれども、無視できるほど少なくもないのです。過去の記事から第4水準漢字の例を挙げてみましょう。

面倒くさくなったのでこの辺にしておきますが、まだあります。前から言っていますがやはり、JIS X 0213の第4水準も含めた全文字が、いつでもどこでも(例えば携帯電話やスマートフォンでも)使えるようになることが必要だと思います。念のため付け加えておくと、上記の記事は何も古文献の類を目を皿にして調べたものではなくて、日常生活、例えばテレビを見ていたときなどにたまたま目に入ってきたものなのです。それでもこれだけ出てくるのです。

X0213の開発当時、私は星、つまり天の星に興味があったので、それに関する本を調べて、X0208にない字を用例として提供しました。それで、結果的にX0213は私の要件を満たすものになっています。ほかの大きな用例ソースは、野尻抱影『日本星名辞典』という本です。これについてはまた改めて紹介したいと思います。

東洋史学者の宮脇淳子氏の講演で聞いたことなのですが、韓国のハングルは中世モンゴルのパクパ文字を元にして作られたという説があるが、韓国人にこれを言うと怒るのだそうです。余所からの影響を全く受けずに朝鮮半島の人々がハングルを独創したのだと、現代の韓国人は思いたいものらしい。

ちなみになぜ朝鮮半島がモンゴルの影響を受けるかというと理由がある。モンゴル帝国が高麗王国を征服すると、代々の高麗王はモンゴルから皇女を娶ることになって、その子供はモンゴルの宮廷で成長することになった。高麗王室が半ばモンゴル貴族化するわけです。その中でモンゴルの文化が高麗にもたらされたと考えられます。

それはともかく、自国の文化が全く他と断絶して生成発展するのが偉いという考え方には、あまり根拠がないように思います。

例えばゴッホの絵が日本の浮世絵の影響を受けたからといって、それをもってゴッホの絵の価値が下がるわけではない。また、ゴッホの絵は我が国起源だなどと日本人が威張るのも筋違いというものでしょう。

いま世界にたくさん輸出されている日本のアニメはかつてアメリカのアニメの模倣から始まったものだろうし、その日本のアニメが発展すると今度はハリウッド映画の「マトリックス」に影響を与えたりもする。

文化というのは大体において互いに影響を与えあって良いものを取捨選択しながら発展していくものだと思います。

余所からの影響を隠してあたかも自分が全て独創したかのように主張するのはあまり健全でないのではないか。それよりも、世界中から学んで、世界一良いものをつくるのだと言う方が、好ましいように思います。

もちろん、模倣に始まっても単なる模倣に終わらないことも大事です。

最近、Sony Readerを買いました。電子書籍端末です。

Readerを使う上で気になる点については、「Sony Readerが誤解されがちなこと」というページが参考になると思います。説明はそちらに譲ります。

ここでは、Sonyの電子書籍販売サイトReader Store以外から入手した書籍・文書をReaderで読むことに注目して、ちょっと試してみた次第を記します。Reader Storeの品揃えはまだまだですが、それ以外にもいろいろ読み物の入手経路のあることが分かると思います。工夫次第で使いみちが広がりそうです。

文書ファイルをReaderに取り込むには、USBケーブルでPCにつないでやるとマスストレージとして見えるので、それらしいフォルダ(見れば分かる)にファイルをコピーするだけです。私はLinux機でこれをやっています。

Readerは、PDF、XMDF、EPUBの各フォーマットに対応しています。ファームウェアのアップデートで .book 形式にも対応したのですが、Reader Storeから購入したものでないと不具合があったりするらしいので、とりあえず忘れておきます。

  • PDFを読む

青空文庫をReader用にPDF化したもの達人出版会のウェブサイトにあるので、これが利用できます。お気に入りの作品や、この機会に読んでみたい作品をダウンロードしてみると良いでしょう。Readerの画面サイズを考慮して作られているので快適です。(ただ、何の都合か、ページめくりの向きが逆になってしまいます)

【2012年5月14日追記】 このページめくりの向きの問題は、ソフトウェアアップデートによって解消されました。(参考記事)

北海道大学CoSTEP作の「もっとわかる放射能・放射線」という電子書籍がPDF版もあり、Readerで読むのに丁度良いサイズです (やや文字が小さく感じられるかもしれません)。原発事故のこともあるので、この際Readerで読んでみるといいでしょう。

一般のPDF文書はA4サイズに作ることが多いと思いますが、Readerの画面の大きさの都合上、A4の文書を快適に読むのは難しいように思います。画面を回転する機能があるので、それで横にすれば、まあ何とか読めるかといったところです。それでも字が小さいと思います。

  • XMDFを読む

日本語の電子書籍としてそれなりに資産のあるのがXMDFです。Reader Storeでも売られていますが、ほかの店でもXMDFを販売しています。

試しに、BooksVで購入したXMDFの電子書籍をReaderに入れて読んでみたところ、きちんと読めました。

Reader Storeで販売されているものはReaderでしか読めないようになっているそうですが、BooksVのものにはそういう縛りはありません (BooksVは元々PCで読むことが想定されているようです)。

【2012年4月15日 追記】BooksVで販売されるXMDFには、2012年3月28日以降、DRMがかかるようになったそうです。おそらくReaderで読めません。Sony Reader Tips参照。

ほかにも、電子書店パピレス電子文庫パブリなどでXMDF形式の電子書籍を購入できます。Sony Reader Tipsのページに書店がリストアップされています。

Reader Storeだけでなくこういうのも活用すると幅が広がると思います。

  • EPUBを読む

英語の無償EPUBファイルが置いてあるサイトepubBooksから、ルイス・キャロルのAlice in Wonderland (『不思議の国のアリス』)と、岡倉天心(覚三)の The Book of Tea (『茶の本』)をダウンロードしてみました。

どちらも当然のように表示できました。アリスの方は挿絵つきです。EPUBというとレイアウトが崩れたりしないかと気になったのですが(偏見?)、これらは単純なレイアウトなのでそういうことは問題ありません。アリスの、文字がうねうねと配置されるくだりも再現されています。

こういうので英語学習もいいかもしれません。Readerは英語辞典を登載していて、単語をポンポンと押すと簡単に辞書がひけます (なぜか国語辞典は入っていません)。

EPUBというと日本語のものはあまりないように思います (違ったら教えてください)。達人出版会で販売されている書籍は日本語のEPUBをダウンロードできるようですが、私は試したことがありません。

事の軽重

| コメント(0) | トラックバック(0)

拙著『プログラマのための文字コード技術入門』の執筆の際に意を用いたことのひとつに、社会的な少数派が文字コードの実装によって不利益を被らないようにということがあります。

第3章のJIS X 0213の説明でアイヌ語表記用の片仮名に結構な分量を割いているのもそのひとつです。アイヌ語が我が国の少数民族の言語であるというだけでなく、Unicodeの結合文字の問題によって実装のハードルが高くなっていることを考慮すると、その対応に注意がより必要だと判断できるのです。漫然と実装されていると、アイヌ語がうまく扱えないという場面が多々出てきてしまい得ます。そしてそれは実際に起こっていることです。

少数派の言語だから対応は後回しでいいというのでなく、少数派の言語だからこそ手厚い対応が必要なのです。

実装面からいえば、これは鼻濁音を表す仮名文字「か゚」などと同じ状況です。しかし、どちらの方がより緊急性が高いかといえば、それはアイヌ語の方だと考えられます。というのは、鼻濁音表記用の仮名文字は、通常の言語表記というよりも一種の発音記号のような位置付けで使われるものだからです。片やアイヌ語用の片仮名は発音記号ではなく、その言語の通常の表記のために使われるもので、日本語でいえば普通の平仮名や片仮名と同様の位置付けになります。とすればアイヌ語表記用の片仮名の方が必要性はより高いと判断できます。本書の記述にもそういう判断が働いています。

少数派といえば、珍しい漢字を使う地名というのも、そこに住む人は一種の少数派であるといえます。本書に取り上げた、岩手県宮古市の魹ヶ崎(とどがさき)や、福島県いわき市の𣖔木作(ほうのきざく)に住む人は、自分の住所すらPCや携帯電話で碌に表せないという状況が長く続いています。文字コードを知る技術者というのは、そういう状況も救済していく必要がある。

JIS X 0213の文字採録は、個人的な書き方の癖を他人に認めさせようとするようなエゴの発露でなく、あるいは手書きの書体を無理やり活字化したようなものでもなく、社会的に共有されていることが確認されているものを選ぶようなプロセスで行われています。上に挙げた地名の字というのもそうした、社会的に共有されている字なのです。

第3章で、JIS X 0213に追加された漢字の例を挙げるにあたっては、何かの異体字のようなものよりも、第1・第2水準にない字種のものを優先させています。異体字は別の符号位置で代用がききますが、異なる字種はそうはいかないのでより重要性が高いためです。

残念ながら、ここに書いたような少数派への対応よりも、携帯絵文字のような子供じみたお遊びの方が俗耳に入りやすいというのが一方の現実でもあります。想像力を働かせて、自分の民族伝来のしかも存亡の危機に瀕している言語よりも携帯絵文字の方により多く企業や開発者の力が投入されているとしたらどう思うか、考えてみると良いでしょう(その意味で、ことえりにアイヌ語入力方式を実装したAppleを私は高く評価します)。事の軽重をわきまえることが重要です。

それでも、心ある人は本書の意図を汲んでくれると私は楽観しています。

もし分からなければ、JIS X 0213を忠実に実装することです。それでかなりの問題は解決するのだから。

日経ビジネスオンラインのコラム記事の中の写真に、JIS第4水準漢字が写っているのを見付けました。

「宿泊キャンセルはゼロ」、奇跡のホテルに聞く極意」という記事の3ページ目の写真に、「秌子想」というレストランの店名が写っています。この「秌」という漢字は、「秋」の異体字で、JIS第4水準、面区点番号2-82-81です。

「秌子想」と書いて「ときこそう」と読むようです。ホテルのウェブサイトには、常用漢字体で「秋子想」と記されています。

漢字の異体字にはこのように、文字の構成部品の場所を入れ替えたものがあります。例えば「和」に対して左右を入れ替えた「咊」(第4水準、2-3-76)という異体字があったり、「群」の左右の並びを上下にした「羣」(第2水準、1-70-26)というのが あったりします。

SKKの第3・第4水準漢字辞書そのAnthy版を使うと、「あき」という読みから「秌」を入力することができます。

神奈川県川崎市の高津区役所の前で、目をひくものがありました。

まずひとつは、役所の壁面に設置された高津区役所の文字。

川崎市高津区のサムネール画像

もうひとつは、石に彫られた高津区の文字。

川崎市高津区の彫られた文字のサムネール画像

壁面の方の文字は、ゴシック体としてよくある形です。活字として一般的な形、いわゆる「くち高」です。

一方、石に彫られた方の「高」の字は、なべぶたの下がいわゆる「はしご高」のようになっています。ただし、中の横線が2本でなく1本のように見えます。というか、線というよりも点のように見えます。

これは、伝統的に手書きの書体ではなべぶたの下がはしごのような形になることが多いことを反映していると考えられます。同じ字でも、ゴシック体のような活字体ではなべぶたの下が口の形になります。

聞くところでは、東京の最高裁判所でも、石に彫られた文字はいわゆる「はしご高」の形につくっているということです。これもやはり伝統的な手書きの書体に則ったものでしょう。伝統的といえば、楷書のお手本とされる九成宮醴泉銘 (唐の欧陽詢の書) でも「高」の字ははしご高です。

これは書体による違いであって、どちらの形が高津区の「正式な表記」だとかいった筋合いのものではありません。同じ言葉、同じ字を書くのでも、書体によって形が異なるのです (もっともこれは当たり前の話で、形が違うからこそ書体が違うというのですが)。

手書きで「はしご高」のように書いても活字にしたら「くち高」になる、逆に、活字で「くち高」に印刷されているものを手書きで「はしご高」に書く、というのは普通のことです。これは技術的な制限で仕方なくそうなっているのではなく、そもそも文字の形というのは書体によるのだということです。

こういうことは文字に詳しい人の間では常識的なことのようで、大熊肇『文字の骨組み』では、「『はしご高』にこだわるのではなく、『くち高でもはしご高でもどちらでも良い』ということにこだわってほしい」(原文では「はしご高」と「くち高」はそれぞれ一文字) と述べられています。

文字コードについての議論ではこうした「はしご高」のようなものを異体字のようにいうことがありますが、しかしこれは例えば「北」という字が手書きと活字とで線の組み合わせ方が違うのと同じ話であって、異体字という言葉はあまりそぐわないように私には思われます。

最近PDF読み機として使える機械に興味を持っていて、KindleやiPadなどをウェブで調べていたりしたのですが、その中で面白いブログ記事を見掛けました。

文字通り、Kindle 3でJIS X 0213の文字がどれだけ使えるかを調べたレポートです。

詳しくは上記のリンク先を見てほしいのですが、かいつまんでいうと、BMPの漢字は大丈夫だが面02のCJK拡張Bの文字は全滅ということです。また非漢字は一概にいえないそうですが、結合文字を使うものは駄目なようです。Kindle 3.1はBMP内でも互換漢字は表示できないということです。

Kindleでは、JIS第4水準でUnicodeの面02にある「𩸽 (ほっけ)」という字(U+29E3D)は表示できないということになります。

こういうややこしい状況がなくなって、いつでもどこでもJIS X 0213の全文字が扱えるようになると良いと思います。

韓国のプロサッカーで八百長があったということが報じられています。その記事のひとつに、JIS第3水準漢字を外字扱いしているものを見付けました。

この記事の中に、「金東※(キム・ドンヒョン)容疑者」というくだりがあり、「※は火へんに玄」という注釈がつけられています。

「火へんに玄」とは、第3水準漢字の「炫」1面87区39点でしょう。このニュースサイトはUTF-8で符号化されているので外字扱いせずとも符号化できるのですが、JIS X 0208にない文字は外字扱いする方針なのでしょう。

SKKの第3・第4水準漢字辞書では、「ひょん」という韓国語の読みから「炫」という字に変換できます。朝鮮語音というアノテーションがついています。「げん」という日本語の読みからでも勿論変換できます。

ATOKを小手試し

| コメント(0) | トラックバック(0)

ふと思い立って、ATOKの無償試用版をダウンロード、Windows機にインストールしてみました。JIS X 0213対応の程度に興味があったためです。

少し試してみて分かったところは以下のとおり。バージョンはATOK 2011です。

  • デフォルトではJIS X 0208外の文字を含む変換候補の出力を抑制する機能がオンになっているので、設定でオフにしてやると良い。オフでも、X0208以外の文字を含む候補には「環境依存文字」という注意書きが添えられる。(なお、X0208外を抑制といいながら、Windowsの機種依存文字は出てきてしまうので、この抑制機能を使う際にはアテにせずによく注意する必要があります)
  • 文字コード辞書というのがあり、これを使うとJIS X 0213の面区点番号から文字に変換できる。例えば、「噶」という字を出すには、1-15-20とタイプして変換キーを押せば良い。Unicodeの符号位置でもOK。ただし、上記のX0208外抑制機能が働いていると第3・第4水準の変換候補が出てこないので注意 (私はこれでハマりました)。
  • 単漢字の辞書を使うとJIS X 0213の文字もいろいろ入力できる模様。(網羅的ではないかもしれない)
  • 第3・第4水準漢字を含む語彙は、第1・第2水準の異体字を除いては (次項参照)、あまり積極的に収録されていない模様。
  • ただし、表外漢字字体表の「印刷標準字体」に相当するものは第3水準のものも単語として登録されているようだ。例えば「くらぶ」を変換すると「倶楽部」と「俱楽部」(俱の字が第3水準、1-14-01)の両方が出てくる。「剝奪」(剝が第3水準、1-15-94、cf. 剥) だとか「冒瀆」(瀆が第3水準、1-87-29、cf. 涜) なども単語として入力できる。こういうのには「印刷標準字体」かつ「環境依存文字」という注釈がつく。
  • 文字パレットではJIS X 0213の面区点の文字表から文字を選んで入力できる。例えば「𩸽」(2-93-44)などを文字の一覧から入力できる。

感触としては、印刷標準字体かどうかを気にして入力したい人にはいいんじゃないかという気がします。ただ、第3・第4水準漢字によって可能になる語句については、保守的というかあまり進んでいない印象を受けました。

また分かったことがあれば記していきたいと思います。

中国共産党についてのニュース記事に第3水準漢字を外字扱いしたものがありました。

この記事の冒頭で、中国語の歌詞として 「●(=にんべんに尓)的光輝思想、永遠指航程!(あなたの輝かしい思想が永遠に道のりを指し示します)」と記されています。

「にんべんに尓」とは、JIS第3水準の「你」1面14区13点でしょう。

JIS X 0213は別段中国語の文を符号化することを目的として設計されているわけではないのですが、「你好(ニーハオ)」のように日本でもよく知られた語の文字なので、第3水準に含まれているのだと考えられます。

このニュースサイトはUTF-8で符号化されているので、「你」を外字扱いせずとも符号化できるのですが、JIS X 0208外の文字は外字扱いする方針なのかもしれません。このあたりはサイトによって異なります。日経ビジネスオンラインのように、JIS第2水準外の文字をHTMLの文字参照で表して特に断り書きのないサイトもあります。

SKKのJIS第3・第4水準漢字辞書では、「にー」から「你」に、「にーはお」から「你好」に変換できます。

広告