2010年6月アーカイブ

昨日の記事に関連して、JIS X 0213の必要性を理解しない人がどうして出てくるのだろうと考えました。それでふと気付いたのは、JIS X 0208では文字が足りないということを理解していないのではないか、ということです。JIS X 0208では文字が足りないということに気付いていなければ、JIS X 0213が必要だという認識にも至らないのではないか。

JIS X 0208に文字が足りないというのは自分の中ではほとんど常識になっていたので、これは盲点でした。

以前97JISとJIS2000にかかわった人が書かれていたと思うのですが、1990年代に、JIS X 0208には文字が足りないから拡張できないかという話が出た。検討したところ、X0208に手を入れて変更するのは良くないという結論になって、別規格として上位互換のX0213を作ることになったと。つまりX0213というのは実質的にX0208の改正のようなものであるわけです。

X0208に文字が足りないというのはだいぶ前からの了解事項であって、X0213によってその問題はほぼ解消された、ということです。ここ重要なので繰り返します。

  • JIS X 0208には文字が足りない。
  • その問題は、JIS X 0213によってほぼ解消された。

「ほぼ」というのは、特に漢字についてはあくまでも「ほぼ」なのですが、コストとの兼ね合いでどこかで線引きしないといけないので、ある程度割切りが必要です。

実際にどんな文字が足りなくてX0213で追加されたのかは、『プログラマのための文字コード技術入門』をお読みいただければいいと思います。

ここでいう文字とは、現代日本で使われている普通の文字のことなので、従来の文字コードと分け隔てなく扱えることが重要です。だから、JIS X 0213では、SJIS、EUC、ISO-2022-JPという、従来の符号化方式によって符号化できるよう設計されました。

したがって、「X0213はUnicodeで実装します。従来の文字はWindows-31Jで扱います」というのは不適当なのです。これでは、X0213で追加された文字をいつでもどこでも扱えるようにはなりません。

なぜかというと、この方針では依然としてWindows-31Jのみを使う場面が残ってしまい、そのときはX0213で追加された文字は扱えないからです。いわば、Windows-31Jに含まれる文字が一級市民で、アイヌ語用片仮名などは二級市民扱いになってしまうということです。これでは駄目です。そしてこれは現に起こっていることです。

だいたい、「X0213はUnicodeで実装します」というのなら、Windows-31Jの文字だってUnicodeで実装すればいいということになるではないか。筋の通らない話です。

今後はUnicodeの使用が増えていくことでしょう。しかし、依然としてEUCやSJISといったJIS系の符号化方式が便利な場面も残る筈です。そのとき、EUC-JIS-2004やShift_JIS-2004を使えば現代日本の文字をきちんと扱えるというのが、JIS X 0213の利点なのです。そしてこの利点を、私を含め一部の人々は既に享受しています。

驚いたことに、Twitterで、JIS X 0213を無視してWindowsの機種依存文字(いわゆるCP932, Windows-31J)を擁護する意見の持ち主に出会いました。

こういうのは、悪意があるとかではなく、単純に情報が足りていないのだと思います。JIS X 0208やJIS X 0213についてよく知れば、こうした意見は無くなっていくことでしょう。

JIS X 0208が使われていくと、この規格では現代日本の文字を符号化するのにかなり足りないということが認識されました。それを改善する規格として1990年にJIS X 0212が制定されました。しかしこの文字コードは、Shift_JISで符号化できず、また文字選定上の問題もあってか、広く普及はしませんでした。その反省を踏まえ、最初からShift_JIS方式での符号化を考慮に入れたJIS X0213が、JIS X0208の上位互換として作られました。これが2000年のことです。

広く使われているShift_JISが、JIS X 0213で定義される符号化方式のShift_JIS-2004にアップグレードすれば、日本のコンピュータの文字環境はぐっと向上します。「トカラ列島」や「楊潔チ」は漢字で「吐噶喇列島」「楊潔篪」と書けるようになります。また、日本にとって重要な問題として、日本の少数民族の言語であるアイヌ語が、この文字コードによって符号化できるようになるのです。アイヌ語のサポートが日本の文字コードにとって必須であることは以前論じました

JIS X 0213によって符号化可能になる文字がどれだけ私たちの身近に使われているかは、折に触れてこのブログに記しているので、ここでは繰り返しません。JIS X 0213のタグを付けている記事をご覧いただければ良いと思います。テレビの字幕や新聞社のニュースサイトに、たくさん第3・第4水準があることが分かるはずです。

JIS X 0213の文字は、いつでもどこでも使えるようになっているのが望ましいといえます。いつでもどこでも、というのは、Unicode系の符号化方式でも、JIS系の符号化方式でも、という意味です。Unicodeを使う場合には、JIS X 0213の11,233文字がきちんと処理できることが保証されている、SJIS系が必要ならShift_JIS-2004を、EUCではEUC-JIS-2004を使う、ということです。

「これからはUnicodeなんじゃないの」という人もいることでしょう。Unicodeの方が便利な場面では勿論Unicodeを使えば良いのです。しかし、JIS系の符号化方式が必要な場面もあるでしょう。そういうときには、JIS X 0208でなくJIS X 0213の符号化方式を使えば、現代日本で使われている文字をより良くカバーできるということなのです。もし今日からUnicode以外いらないというのならJIS X 0213も不要でしょうが、EUCやSJISといったJIS系の符号化方式も使うなら、その際の「JIS」とはJIS X 0213であるべきです。

2000年にJIS X 0213ができた時点で、Windows-31Jは存在意義を失いました。それから10年経って、もういいかげん、Windows-31Jにさよならを言うべき時になってきたように思います。

試みに、Windows-31JとShift_JIS-2004の比較表を作ってみましょう。ぱっと思い付くくらいでもこのようになります。

Windows-31JShift_JIS-2004
Latin-1相当ラテン文字×
Latin-2相当ラテン文字×
アイヌ語×
鼻濁音×
発音記号×
83JIS略字の元の漢字×
人名許容・康煕別掲×
表外漢字UCS互換×
歯科用記号×

2000年からJIS X 0213を使っている私からすれば、なんで今ごろこんなことを、というのが偽らざる感想ではあるのですが...。

(補足1) ちなみにMac OS Xは既にShift_JIS-2004を実装しています。

(補足2) JIS X 0212について、90JIS改正にかかわった方のブログに、「結局X0208の改正として6000文字を越えるあらたな文字の追加することはベンダーの強い反対によって実現せず、X0212という別規格として極めて使いにくい形で制定された。そしてベンダーは補助漢字について使いにくくすることによってなかったことにするのである」とあります。これが確かかどうか私は証拠を持ちませんが、JIS X 0213のときにもベンダが反対したことと合わせて考えると趣深いといえます。

以前、北海道の石狩市がデータセンターを誘致している話を書きましたが、それが具体化してきたようです。レンタルサーバで有名なさくらインターネットが石狩市に大規模データセンターを設置するという報道が流れました。

大変に気合の入ったプレスリリースが出ているので、ニュース記事だけでなくそちらもお読みいただくと面白いと思います。

来年の秋に竣工予定とのことです。

石狩の優位性として、災害の少なさ、土地の安さ、寒冷な外気を利用可能ということが挙げられています。災害が少ないというのはあまりピンとこない人がいるかも知れませんが、北海道のあのあたりは地震が少なく(勿論程度問題ですが、関東よりは確実に少なく規模も小さい)、台風被害も少ないのです。

データセンターにとって致命的なことではないかもしれませんが、石狩の欠点は鉄道路線がないことだと私の視点からは思います。以前から路線建設の構想だけはあっても遅々として進んでいません。この際、一気に、発寒あたりからJRの線路を延ばしてしまってはどうでしょうね。路線の案が3つくらいあって揉めていたように記憶していますが、たとえベストでない選択をしたとしても、何も作らないよりはベターだと思います。

朝のNHKニュースを見ていたら、字幕に「活痧」(かっさ)という字が出ていたのが目を引きました。「痧」なんて字はJIS X 0213にあったろうかと思って調べたら、第4水準、面区点番号2-81-51にありました。さすがです。

「活痧」自体が何なのかは忘れてしまいました。この字幕が出た後で顔のマッサージのような動作が映っていたので、そういうことに関係する言葉なのだと思います。Webを検索してみると、字が少し違って「刮痧」という言葉が出てきます。これもやはりマッサージに関係があるようです。

JIS漢字字典』でやまいだれの部首を眺めていると、第3・第4水準は「こんな字もあるのか」といった見慣れない字が並びます。もちろんこれはやまいだれに限らないのですが、なぜかやまいだれについてはその感を強くします。

疋田智『ものぐさ自転車の悦楽――折りたたみ自転車で始める新しき日々』(マガジンハウス)は、折り畳み自転車を主に取り上げているものの、自転車に興味を持った人全般にとって興味深い本となっています。最近自転車がブームらしいけどどうなんだろう、と思っている人には格好の一冊といえます。

折り畳みに限らず、自転車に乗るうえでの色々なノウハウが説明されているので、これ一冊あれば、今までママチャリしか知らなかった人でもちゃんとした自転車のある生活が始められるようになります。実のところは、折り畳み自転車以外にも共通する話が多いといえます。

初心者向きとして折り畳み自転車を取り上げている理由としては、いざとなったら折り畳んで電車やタクシーに乗ってしまえばいいという気軽さが、勿論ひとつにはあります。しかしそれだけでなく、もし将来的にもっと別のタイプの自転車(ロードレーサーやMTBなど)に興味を持ったとしても、折り畳み自転車には異なる価値があるので、捨てる必要がない、併用できるという美点も説かれています。

さて、本書の導入部で自転車の効用のひとつとして説かれている、著者が自転車に乗るようになってクルマを手放したことによる経済効果の大きさは特筆に価します。駐車場代やガソリン代や税金などで年間約70万円、その額を住宅ローンの繰り上げ返済に充てたことで、10年間で実に1400万円もの違いになったといいます。これはすごい。

そういえば大前研一氏が以前雑誌に書いていたことですが、日本人はマイホームとマイカーにこだわらなければもっと豊かに生活できるということでした。30年前ならばマイホームとマイカーはそれ自体が豊かさの象徴だったかもしれませんが、今や我々をとりまく環境は大きく変わっています。不動産を買っても資産価値が下がってしまっていいのか、クルマはレンタカーやカーシェアリングで十分でないのか、といったことを合理的に判断するのが今時の賢い生活者でしょう。

自動車が大好きという人ならばクルマの所有にかかるコストも苦にならないかもしれませんが、そこは価値観次第です。一体、自動車や新築マンションに、その値段や維持費や手間を含めたコストに見合う価値があるものなのか、自分の価値判断に基いて再検討すべき時代になっていると思います。

勿論、自転車の効用は経済効果だけではありません。健康にも良いということはダライ・ラマが自転車をこいでいることからも分かりますし、健康面も含めて詳しくは本書を読んでもらえれば良いと思います。

自転車で新しい生活を始めることは、新しい時代の象徴ともいえるでしょう。このことがピンとこないという方にこそ、本書を読んでいただいて、なぜ自転車と新時代が関係するのかを探っていただければ良いと思います。

ダライ・ラマ14世の偉大な点として、仏教を押し付けない、仏教に閉じないということを挙げられると思います。ダライ・ラマはいうまでもなくチベット仏教のトップですが、世界中で読まれている彼の本は、特に仏教徒や仏教徒予備軍を対象とせずにごく世俗的な一般人向けに書かれ、しかしながら仏教のエッセンスに基いています。

ダライ・ラマ こころを導く言葉365』(春秋社)もそういう一冊です。仏教の見方に立脚しながらも、仏教徒以外に門を閉ざすわけでもなく、ましてや仏教への改宗を迫るわけでもなく、平易かつ論理的、常識的な言葉で書かれています。

本の主旨とあまり関係ないことながら、この本には面白いくだりがあります。

肉体労働をせずにすむ人々の多くが、肥満や病気を恐れて健康維持に多くのエネルギーを費やしています。実は私も同じです。私はあまり出歩きませんから、しかたなく自分の部屋で毎日自転車をこいでいます。

部屋の中で自転車をこぐダライ・ラマ! なんとユーモラスな。

さて、今ダライ・ラマは日本にきています。20日には長野、22日には金沢、26日には横浜で、法話や講演があります。詳しくはWebサイトに情報があります。横浜では地下鉄の駅に講演会の大きなポスターが貼られていたそうで、日本での関心も高まりつつあるように思 われます。

少し前のことですが、拙著『プログラマのための文字コード技術入門』紹介ページに、Web上の評判をいくつか載せました。本書を買うかどうか迷っていた方は、このご好評をご覧のうえ、どうかご安心してお買い求めいただければと思います。

この中に、三重大学奥村先生のTwitterの投稿(ツイート)もあります。私が学生時代にさんざんお世話になった『LaTeX2e美文書作成入門』(だからして今を遡ること十ウン年前の本の筈ですが、今でも改訂版が出ているのはすごい)の著者にお褒めの言葉を頂くというのは望外の喜びです。それはともかく、このツイートの中に、本書は「全角と半角について誤解している人にもお薦め」と書かれているのですが、よく考えてみるとこれは面白い。

誤解している人は、誤解していると気付いていないからこそ誤解しているわけです。誤解している人に対して「誤解している人にお薦め」と言っても、「はい、私誤解してますから本読んで勉強します」という風にはならないのではないか。誤解している人にはどうしたら届くのでしょうか。

もし誤解している人が本書を手に取って読んでいただけたなら、全角と半角にまつわる誤解が解けるようにと、著者としては書いたつもりです。しかし十分にその意図が達成できたかどうかは分かりません。もし今後文字コードについての文章を書く方がいたら、どうか、ご自分なりの方法で、全角と半角についての誤解が解けるような工夫をしていただけたら良いと思います。

先日、「iPod Touchの漢字変換はJIS X 0213の成果を取り入れていた」という記事を書きました。JIS X 0213の文字が単語として入力できるという話です。このときは、てっきり、iPod Touchは (iPhoneも?) JIS X 0213の文字全部に対応しているのだと思っていました。

ところが、昨日のブログ記事紹介したページをiPod Touch (第2世代) で見てみたら、一部の文字・記号に、表示できていないものがありました。

例えば、将棋の駒の記号☗☖や、白抜きの丸付き数字の⓴、二重の丸付き数字⓵・⓾は表示できていませんでした。また、Unicodeでは合成の必要な文字、か゚やセ゚などは、半濁点の部分が間延びして表示されています。

iPod Touchのフォントはどういう基準で文字を揃えているのか、ちょっと不思議に思いました。

やはり、JIS X 0213の文字はいつでもどこでも使いたいものですね。

当サイトの配布物のセクションにおいて、Anthy用JIS第3・第4水準漢字変換辞書 というのを公開しました。

これは、SKKのJIS第3・第4水準漢字辞書SKK-JISYO.JIS3_4をAnthy用に変換したものです。AnthyでもJIS第3・第4水準漢字が使えるようになります。AnthyはLinux環境でよく使われている仮名漢字変換ソフトウェアです。

「とかられっとう」から「吐噶喇列島」が変換されるとか、「ゆーろ」から「€」が出るとか、「あいぐんじょうやく」から「璦琿条約」が出るとかいった機能を、SKKだけでなくAnthyでもお使いいただけるようになります。

まだ、用言に対応していないとか、品詞が適当でないものがあるとか、不十分な点があるのは承知していますが、ともかく文字を変換することはできるので、とりあえず公開してしまいます。どうかな?

Anthyをお使いの方は、使ってみてご感想などいただけると嬉しいです。

雨の定禅寺通り、メディアテーク前

先週末、仙台・松島に旅行に行ってきました。今までなぜか仙台に行く機会がなかったので、初めての仙台です。

ただ、1日めはあいにくの雨。雨の中、仙台市内の観光地を回るバス「るーぷる仙台」に乗って、伊達政宗ゆかりの地などをたずねてきました。

上の写真は、定禅寺通り、メディアテーク前の様子です。杜の都の面目躍如といった素敵な景観です。定禅寺通り以外にも、仙台市内は街路樹が多い、そして大きいものが多いと思いました。

伊達政宗像 左の写真はおなじみ、伊達政宗公です。仙台城跡にあります。

やはり伊達政宗の兜は格好いい。以前、大阪城を見学したとき、土産物屋にいろいろな戦国武将の兜の小型の置物が売られていたのですが、伊達政宗のが一番格好いいと思いました。ただ、大阪にきて伊達政宗の兜が土産というのもどうかと思い、そのときは買わずに帰りました。仙台のお土産には格好のものですが、なんと今回はどこでもそうした品に遭遇せず、買えずに帰ってしまいました。

この日は松島に移動して一泊。夕食は利久・松島店の牛タン。これがうまい! 牛タンというのはこれほどうまいものだったのかと認識を改めました。牛タン料理が色々出てきたのですが、やはり正統派に焼いたものが一番おいしかったです。

2日目は松島観光。前日とはうって変わって晴れました。

まず手始めに、遊覧船に乗ってみます。松島湾内を一周するものです。解説のナレーション付きです。これが実は大変に人気なので、人の少ない時間帯を狙って乗るのが良いと思います。私は偶然にも朝一の便に乗って、船内に割合余裕があったのですが、これが結果的には大正解。船が発着場に戻ってきたら、次の便に乗る乗客が大行列をなしていました。

この船は鷗も面白い。飛んでくる鷗に餌をやることができるのですが、鷗の方でも「船に近づけば食い物にありつける」ということを知っているので、船の後からたくさん着いてきます。少し離れた場所から観光船を見ると、船を追って鷗の群れが着いていくのがよく見て取れるのです。船が泊まっているときは船の後ろの水面に泊まって待機しているという徹底ぶりです。

松島湾の光景日本三景に数えられる松島の景色を楽しむのに、船上から見たり岸から見るのもいいのですが、山の上の展望台から見るのもやはり良いのでしょう。でしょう、というのは、今回は行かなかったのです。多分、湾内に島々が散在している様子がよく見えて面白いのだと思いますが、これは次回のお楽しみ。

スマートフォンの販売が増えてきました。しかし、普通の携帯電話で利用可能なサービスがスマートフォンでは利用できないことがあるので、注意が必要です。

例えば緊急地震速報。大きな地震の初期微動を検知して地震がくることを知らせる仕組みです。最近のNTTドコモやauの携帯電話なら、受信することができます。通常の電話やメールの着信とは異なる扱いになっています。

1年ほど前に、私が寝ているときに実際に作動して、大きなアラームで起こされたことがあります。このときは幸いあまり大きな揺れでなかったのですが、緊急地震速報によってそれなりに時間の余裕がうまれるものだと実感しました。

今のところスマートフォンは、ドコモから発売されているものも含めて、緊急地震速報に対応していないようです。

緊急地震速報は、誤作動の例もありますが、実際に役立ったこともあります。私の知り合いからも、テレビで緊急地震速報を見て、子供を連れて安全な場所に移動したことがあるという話を聞きました。

日本にいる限り、地震から逃れることはできません。スマートフォンの購入を検討する際は、自分がその機械で緊急地震速報を受信できなくても良いのかどうか、考慮に入れると良いでしょう。

前の記事では高校で習う「対偶」を知らないと論理的な問題を間違うということを示しました。対偶というのは決して難しい概念ではないので、覚えておかないのは損です。

同じように、簡単だから覚えておくと良い知識として、ド・モルガンの法則というのがあります。誰にとって良い知識なのかというと、ソフトウェアの開発に携わる人全般です。高校の数学で習うので理系の人は全員知っている筈ですが、文系の学部を出てSEになったような人には、忘れちゃっている(もしくは最初から知らない)人もいるかと思います。

ド・モルガンの法則というのは集合や論理についての有名な法則です。

例えば、プログラミング言語で、こういうif文があったとします。

  if (!(a == b && c == d)) { ...

上の条件式は、下のように書くのと全く同じことです。

  if ((a != b) || (c != d)) { ...

最初の例では、!記号によって、ANDでつながれた括弧のなか全体を否定しています。それと等価なのは、2番目の例のように、それぞれの項を否定したうえでORでつないだ条件式だということです。このような変形が可能だというのがド・モルガンの法則です。

本当かどうかを確かめるのに、式に具体的な値を入れて考えてみると良いでしょう。例えば、aとbが違うときは、最初の例は a == b が成り立たないので、&&でつながれている括弧のなか全体が即座にfalseになり、それが最初の ! で否定されて条件文全体はtrueになります。一方2番目の例では、最初の括弧の中がtrueになって、|| でつながれている一方が成立するから、この時点で条件文全体もtrueになります。両者の式が同じ意味を表すことはこうして分かります。

ありがちな間違いは、最初の例を変形するのに、下のようにしてしまうことです。

  if ((a != b) && (c != d)) { ...

否定を括弧の中のそれぞれの項に適用したときに、項をつないでいるANDをORにしなければいけないのに、それを怠っている例です。これでは、意味するところが最初の条件式と違ってしまいます。ド・モルガンの法則を知らないとこういう誤ちを犯しがちです。(実際私は、ド・モルガンの法則を知らないSEがこのパターンの誤ちを犯したのを目撃したことがあります。それでこういうブログ記事を書こうと思ったのです)

この法則を知ることが重要なのは、業務システムで使われる条件判断の式を定義したりメンテナンスしたりするような場面においてです。自分でプログラミングをしない人でも、システムの開発に携わっていれば、条件判断を定義したりする機会はあるでしょう。そんなときこの法則を知らないと、ちょっと込み入った条件式を定義するときに、誤った式を作ってしまいます。

ところで、上ではプログラミング言語的な書き方をしましたが、数学的に論理記号を使って書くと下のようになります。上の例との対応を確認してみてください。¬は否定、∧はAND (論理積)、∨はOR (論理和)の記号です。

  ¬(P ∧ Q) = ¬P ∨ ¬Q

同様に、下の式も成り立ちます。これもド・モルガンの法則です。

  ¬(P ∨ Q) = ¬P ∧ ¬Q

友野典男『行動経済学――経済は「感情」で動いている』(光文社新書)を読んでいたら、次のような問題が掲載されていました。

次のような4枚のカードがあり、表にはアルファベットが、裏には数字が書かれている。今、「母音が書いてあるカードの裏には偶数が書かれていなければならない」という規則が成立していることを確かめるためには、どのカードの反対側の面を確かめなければならないだろうか?

[E] [K] [4] [7]

これは高校の数学で習う論理学の初歩を理解していれば確実に解ける問題です。

正解は同書を読んでもらうとして (ヒントは「対偶」)、気になったのはこの問題の正解率の低さです。一般的に10%以下、この本の著者が学生相手に実験したところでも15%程度、入試で数学を選んだ学生でさえ、それより少し高い程度だったといいます。

高校の授業をもう少し真面目に受けていれば、もっと正答率が上がるはずではないかと思います。決して難しくはない内容なので、きちんと先生の話を聴いていたかどうかの問題です。

高校の数学にもいろいろありますが、論理学や集合の初歩というのは、簡単な割に有用性が高いので、ぜひ覚えておくといいと思います。ここで念頭に置いているのは、「文系ですけどSEになれますか」といった類の人のことです。そういう人は、微分方程式が解ける必要はないけれども、論理や集合の基本を復習しておくときっと良いことがあるでしょう。

Webで見付けた、金谷健一「ここに注意しよう日本人の口頭英語」という文章が大変面白かったです。特に、日本人が間違えやすい英語のアクセントというのが指摘されているのですが、簡単なことながら盲点であり、確かに間違えやすいと思いました。

例えば、integrateという語は íntegrate のように語頭にアクセントがあるのに、多くの日本人は integráte のように後ろに持ってきてしまうというのが典型例です。同様の例には、éstimate, cálculate, fórmulate, símulate、あるいは cónsequence, súbsequence など多数があるといいます。こうした語は後ろにアクセントがある方がなんとなく英語らしいと私たちは思ってしまうようです。

知っているつもりの英語でも、辞書で確認したり、他人の発音を注意して聞いたりすると良いのでしょうね。

拙著『プログラマのための文字コード技術入門』にも一言だけ書いたのですが、オープンソースのデータベース管理システムとして有名なMySQLのバージョン5.0とか5.1とかは、UTF-8として3バイトまでしか対応していません。

これは今どき考えられないくらい古い仕様です。3バイトのUTF-8というのは、Unicodeの基本多言語面(BMP) という、16ビット固定で世界中の文字を符号化するんだと(誤って)言い張っていた、古き良き時代のUnicodeの範囲しか扱えません。

MySQLの5.5.3というバージョンではようやく4バイトのUTF-8への対応が図られたようです。5.5.3の変更点を記したページに記されています。

これを使えば、魚の名前の𩸽(ほっけ、U+29E3D)だとか、偏旁の𧾷(足偏、U+27FB7)だとか、あるいは日本の地名として𣖔木作(ほうのきざく、福島県)の「𣖔」(U+23594)や𣗄代(たらのきだい、山形県)の「𣗄」(U+235C4)などといった、JIS X 0213に含まれる漢字がようやく扱えるようになります。一部の人が希望しているであろうIVSや(今後のバージョンのUnicodeに入る予定の)携帯絵文字に対応するにも4バイトのUTF-8は必要です。

ただし、文字コードの指定として、従来の "utf8" とは別に、"utf8mb4" という名前を持つ別の文字コードとして定義されているようなので注意が必要です。

ちなみに、同じくオープンソースのDBMSであるPostgreSQLは、既に4バイトのUTF-8に対応しています。それだけでなく、JIS X 0213の符号化方式のEUC-JIS-2004やShift_JIS-2004にも対応しています。

広告