GNU libiconvはJIS X 0213の符号化方式、Shift_JIS-2004 (Shift_JISX0213) や EUC-JIS-2004 (EUC-JISX0213) に対応していますが、コマンドを実行した際にこれらが入っていない場合もあり得ます。入っているかどうかはiconvのコマンドラインオプション --list で確かめられます。

これらの符号化方式に対応するには、ビルドする際にconfigureのオプション --enable-extra-encodings を指定しておく必要があるようです。インストールされているiconvコマンドでShift_JIS-2004が使えないときはこれが指定されていなかった可能性があります。もしこれらの符号化方式が入ってなかったら、管理者に相談するか、そうでなければ、自分でソースをダウンロードして上記のオプションを用いてビルドしてみるのもいいでしょう。

SJISやEUCと変換するときは常にShift_JIS-2004, EUC-JIS-2004を使いたいので、これらに対応した iconv コマンドを用意しておきたいものです。

参考: GNU libiconv

DeNAのキュレーションサイトWelqの大炎上に端を発して、様々な「キュレーションメディア」の問題が注目されています。他のサイトから著作権無視でパクった文章や写真をつなぎ合わせただけのいいかげんな記事をありえない激安報酬のクラウドワーカーに大量生産させてSEOテクニックでGoogle検索上位を独占している、といった問題です。

ここではこの「キュレーション」なる語に注目してみます。キュレーションサイト問題を扱ったネットの記事では、キュレーションというのは本来は高度な知識を要するものなのだ、といっていたりしますが、それはどれくらい本当か、というのも問題意識にあります。

一般向けの辞書を引いてみる

研究社の新英和中辞典では、curatorという単語に、「(博物館・図書館などの)館長、主事」という説明が与えられています。いわゆるキュレーションというのは、この語から逆成した造語ではないかと思います。というのは、同辞書にはcurationという単語は立項されていないからです。同じく学習者向けという位置付けの、英英辞典 Longman Dictionary of Contemporary English 4th Editionでも同様です。

おそらく、「curateという動詞があってそこからcurationやcuratorという名詞ができた」となんとなく思っている人がいると思いますが (私は最初そう思った)、辞書を引いて分かるところでは、そうではありません。

curateという語は動詞でなく名詞で、キリスト教の教会の役職を表す言葉のようです。英和中辞典では「(教区の)副牧師」「助任司祭」、Longmanでは「a priest of the lowest rank, whose job is to help the priest who is in charge of an area」とされています。ラテン語からきており、cureと関係のある言葉です。

図書館でオックスフォード英語辞典 (OED) 第2版をひいてみると、curate, curatorとの並びにcurationという語もあります。これも教会関係の語で、cureすることが中心的な意味になります。これらの語の説明のうち、博物館の管理業務のような現代的な意味はcuratorの語の項目の最後に記されているのみです。curationという語にはそのような意味は記されていません。

Digital curationという用法

Google Scholarを検索してみると、2000年代からdigital curationという語が学術論文で使われるようになったようです。きちんと調べたわけではなくいくつかの記事の梗概を見ただけですが、これは蓄積されたデジタルコンテンツを将来にわたってアクセス可能にするために維持管理していく活動を指しているようです。おそらく、curatorという語から、博物館の収蔵品の管理という意味合いに基づいて派生した語法ではないかと思います。

ここには、ネット検索で出てきたものを切り貼りしてサイトを作るという意味はありません。

そして今問題の「キュレーション」は

そこから先の展開はまだ追っていない (というか、どういうふうに誤解ないし我田引水したのか、先が読める気がして興味が潰えた) のですが、多分ウェブ業界の人がさらに独自の意見を加えて今の「キュレーションサイト」につながったのだろうと推測します。

もっとも、何も維持管理してなくてウェブの検索結果をコピペしてくるのが「キュレーション」というのはかなり無理があるように思えます。少なくとも何も「cure」していない、むしろ損なっているものの方が多いのではないでしょうか。

おわりに: 辞書くらい引こう

言葉について何か言いたいなら、まずは辞書を引くことだと思います。本当はどのような性質の辞書かということもあわせて考慮する必要があるのですが、それにしても辞書の一つにもあたらないで分かったつもりでいるよりは、何でもいいから手近な辞書を引いた方がずっと得るところがあります。

何日か前の朝のNHKニュースで札幌の夜景を紹介していました。札幌の夜景は近年注目を集めています。日本三大夜景のひとつにも数えられました。光の輝きが平野をどこまでも続くようなイメージが印象的です。

加えて、今の時期の特徴は、雪があることによる色味です。真っ暗になる前、まだ薄明の残っている時間帯は写真愛好家にはブルーアワーとかマジックアワーとか呼ばれて独特の青い色合いを出すことが知られていますが、雪があると青白さが一層際立ちます。街灯の黄色味のある光との対比があるとなお強く印象に残る景色になります。

過去に北海道で私の撮った写真からいくつか紹介したいと思います。

札幌の冬の夜景

まず札幌の夜景。

札幌中心部を見たものです。前方に大通公園、そしてその先にすすきのの街明かりがあります。建物の屋根の上に雪が積もっている、そのあたりは青白い光になり、一方で道路は街灯のオレンジ色の明かりで対照をなしています。

真っ暗になってしまうと雪の青白さは分からなくなってしまうので、時間帯の見極めが肝心です。

同じ構図でもう一枚。同じような機材で同じような時間帯に撮っていますが、まったく同じとはいきません。微妙に建物が増えているのが分かるでしょうか。

函館の冬夜景

北海道で夜景といえば有名なのは函館。

これは雪のあるときです。建物の上が青白いのが分かると思います。

もう少し前、明るい時間帯だとこうなります。

こちらの方が好みという人もいるでしょう。

時間が進んで暗くなるとこうなります。

こうなるともう雪の有無はあまり関係ない感じです。強いて言えば左手の海に突き出した「緑の島」や手前の街の方は青みを感じるでしょうか。

雪のない季節の札幌の夜景

参考まで、札幌の春の夜景から1枚。市街地の南西にある藻岩山からの眺めです。雪がないので建物に青白い感じはしません。ここからの眺望は素晴らしいので、雪のあるときに是非ここから夜景撮影をと思っているのですが、冬は寒そうですね。

関連記事

「2バイト文字」という言い方につっこみをしている人をあるところで見かけたので、これについて少々。

漢字や平仮名を「2バイト文字」のようにいう語法はずっと前からあります。昔からあるのだからいいのかというと、むしろこれは昔だからこそ便宜的に通用した言い方で、今では不適当です。順を追って説明します。

「何バイト」は文字そのものの性質ではない

まず、根本的なこととして、ある1文字の符号化表現に何バイトを要するかは、文字それ自体の属性ではなく、用いる文字コード (コード系) に依存することです。

例えば片仮名の「ア」を符号化するのに必要なバイト数は、JIS X 0201なら1バイト、JIS X 0213なら2バイト、UTF-8なら3バイト、UTF-32なら4バイトと様々に異なります。割り算の記号「÷」は、ISO/IEC 8859-1では1バイト、JIS X 0213では2バイト、UTF-32なら4バイト。

昔はあまり気にしなくてよかった

ただ、昔はそういう面倒なことを言わずに済んだのは、日本ではASCII/JIS X 0201とJIS X 0208だけを考えていれば良かったためです。これなら「漢字は2バイト文字」のような言い方で良かった。1バイトコードと2バイトコードを混在させると英数字や片仮名に1バイトと2バイトの両方が出てきますが、前者を「半角」後者を「全角」と呼ぶことであたかも別の文字のような扱いをすることで乗り切ってきた。

そういう牧歌的な時代が過ぎて、Unicodeが出てきたりまた8859など他の文字コードも意識するようになると、「どの文字コードの話をしているのか」をはっきりさせないと「何バイト」ということはいえなくなったわけです。

特定のコード系についての話ならOK

もっとも、逆に言えば、例えばShift_JIS-2004といった特定のコード系を前提とした場面では、「2バイト文字」とか「1バイト片仮名」といった言い方は全然アリです。

まとめ

  • 漢字や平仮名といった (コード系とは独立な) 文字種のつもりで「2バイト文字」というのは不適当。ある文字が何バイトかは用いるコード系による。
  • 特定のコード系を前提とした場面で、その系における1バイト文字、2バイト文字、のような言い方はOK。
  • なぜ昔はそういう煩わしいことを気にせずに済んだかというと、ASCII/JIS X 0201とJIS X 0208しか対象としていなかったから

関連記事

すごい後知恵なんですが、1980年代に「EUC」方式の文字コードをISOで国際標準化しておけば良かったのではと考えます。

EUC方式、というのがどういうことかというと、

  • 8ビット符号表のGL領域(0x20-0x7F)にASCIIを配置、
  • GR領域には2バイトの漢字コードを配置

という形が基本で、必要に応じてシングルシフトコードでG2, G3に指示されている2バイト(ないし1バイト)符号化文字集合をGRに呼び出せるステートレスな符号、というものです。

具体的には、EUC-JIS-2004, EUC-JP, EUC-KR, EUC-CNなどです。

これはISO/IEC 2022の枠内の運用なので、別段この方式を改めて標準化する必要はないのではないか、という意見もあるでしょう。しかし、型決めしておくことによるメリットもあります。理解が容易になり、設計や実装も使い回せる。特に2022は複雑ですからね。

ISO/IEC 8859という規格は、GLにASCII、GRに欧州等の各地域ごとの文字集合を配置した1バイトコード、という形になっています。この2バイト版があっても良かったのではないか。

それは世の中で「EUC」と呼ばれてそれなりに共有されているのだけども、ISOで標準化されていなかったのはもしかすると惜しかったのではないか。特に、2バイトコードが出てきた早いうちからそれがあれば......、と考えた次第です。

お疲れ様問題

もう結構前の話題なのですが、近年やたらと濫用される「お疲れ様」という言葉にタモリが異を唱えたという記事がありました。

「子役が誰彼かまわず『お疲れ様です』といって回るのはおかしい」とのことで、確かに私も小さな子供に「お疲れ様」などと言われたら「は?」と思うでしょう。

この記事では、目上の人に向かって言う言葉ではない、というのが論点になっています。

通俗的なマナー本の類では「ご苦労様」は目上に言ってはいけなくて「お疲れ様」なら良い、ということになっているようです。これは根拠がありません (え、マナー本に書いてあるって? じゃあその本の著者がそう書いた根拠は何でしょう、という話です)。どちらも、労をねぎらうという意味では同じです。

「お疲れ様」と「ご苦労様」を辞書で調べてみる

三省堂の大辞林第2版には「おつかれさま (御疲れ様)」の項にこう記されています。

仕事などの疲れをねぎらうときに使う語。仕事を終えて帰る人に対する挨拶(アイサツ)の言葉としても用いる。

岩波書店の広辞苑第6版だとこうです。

相手の労をねぎらう意の挨拶語。

広辞苑の方があっさりしていますが言っていることは同じです。古語や言葉の来歴に重きを置く広辞苑からしたら、こんな言葉は一言で済ませてよろしい、ということなんでしょうか。いやこれは邪推です。

一方、「ごくろうさま」はどうか。まず大辞林。「ごくろう」と「ごくろうさま」の両方が立項されています。

ご-くろう 【御苦労】(1)苦労を丁寧にいう語。「いつまでも―が絶えませんね」 (2)相手の骨折りをねぎらっていう語。目上の人には使わないのが普通。「―,―。もう君は帰ってよろしい」(3)人の努力や骨折りをひやかしたり,やや皮肉をこめていう語。「雨の中をジョギングとは―なことだ」

ごくろう-さま 【御苦労様】 「御苦労{(2)(3)}」をさらに丁寧に,あるいは皮肉をこめていう語。「この暑いのに―なことだ」

ねぎらうという意味では「お疲れ様」と同じです。「目上の人には使わないのが普通」というのが余計な一言なのか、どうか。

ついで広辞苑。

ご‐くろう【御苦労】他人の苦労を敬っていう語。また、他人の骨折りをねぎらっていう語。他人の無駄な骨折りをあざけってもいう。浄瑠璃、曾根崎心中「さてさていかい―」。「この雨に出かけるとは―なことだ」

ごくろう‐さま【御苦労様】「ごくろう」を丁寧にいう語。「遠いところを―です」

第一に「他人の苦労を敬っていう」が来ているのが興味深い。これが最も本来の意味だということなのでしょうか。かつて、ある大臣が天皇陛下に公の場で「ご苦労様でございました」のように言ったことがあるそうですが、「苦労を敬う」意味なら違和感ありません。

ここで分かるのは、「お疲れ様」にしろ「ご苦労様」にしろ、話しかける相手の疲れや骨折りや苦労といった、具体的な行為や状態が存在しているはずだということです。疲れることが何もないような状況で「お疲れ様」と言うのはおかしい。

何に対して、の「お疲れ様」なのか

これは私の提案です。「お疲れ様」と言いたくなったら、「何に対しての」お疲れ様なのかをはっきり言葉にして言うようにしてはどうでしょうか。

車の運転をした家族に「長時間の運転お疲れ様でした」。遠くから来た友人に「長旅お疲れ様でした」。もちろん、一緒に働いた同僚に「今日も一日仕事お疲れ様でした」というのも。

相手が何か疲れるようなことをしたという認識だからこその「お疲れ様」なのでしょう。では、相手は何をして疲れたか、それを言葉に出すようにしましょう。もし該当するものが何も思いつかないのなら、それは「お疲れ様」と言うべき場面ではないのかもしれません。

単純に「お疲れ様禁止!」というよりは、「なぜそこで『お疲れ様』なの?」と内省する方が実りがありそうです。

参考

1年くらい前に同じ話題を当ブログで扱っていました。すっかり忘れていて、いま見返したらオオこんなこと書いてたのかと驚きました。幸いにも上の内容とは重複しないので、参考になる本の紹介も記しているこちらの記事もご覧ください。

日経新聞のサイトに気になる題の記事が載っていました。

私は飲むとすぐ赤くなる方なので読んでみたのですが、異なる方面で発見がありました。通常JIS第3水準漢字で表記される単語が使われていたのです。

酒皶という言葉

記事の途中に、「鼻や頬の一部が飲んでいないときでも赤くなる症状を「酒さ」(しゅさ) と呼ぶ」とあります。この記事では平仮名にしていますが、漢字では「酒皶」と書きます。この「皶」という漢字はJIS第3水準、面区点番号1-88-70です。

なぜそんなことを知っているかというと、以前にも見覚えがあるからです。ブログ記事にもしています。

この記事では、『皮膚の医学 肌荒れからアトピー性皮膚炎まで』 (田上八朗著、中公新書) という本に出てきたのを取り上げていました。

この言葉は国語辞典の大辞林や広辞苑にも出てきます。第3水準漢字を使った「酒皶」という漢字表記も載っています。ちなみに広辞苑はこの酒皶という症状について「酒客に多いが飲酒と無関係にもおこる」としています。

病気や医学といった分野にも第3第4水準漢字は時々現れるのです。

文字入力とコード変換

この酒皶という単語は、Emacsで動作する文字入力プログラムSKKの第3第4水準辞書に入っていますから、SKKでは辞書ファイルとしてSKK-JISYO.JIS3_4を参照していれば、何も特別な操作なしに「しゅさ」という読みから変換できます。

文字コードとしてはUTF-8やShift_JIS-2004, EUC-JIS-2004などで扱えます。JIS X 0208ベースのShift_JISなどでは符号化できないので、SJISにコード変換する場合は下記のようにiconvコマンドでShift_JIS-2004 (Shift_JISX0213) を指定すれば文字化けせずにうまくいきます。

  iconv -f UTF-8 -t SHIFT_JISX0213 < utf8.txt > sjis.txt

ソニーから人気の高級コンパクトデジタルカメラの新モデルDSC-RX100 Vが海外で発表されたとのことです。

RX100とは

この「RX100」シリーズは高級コンデジと呼ばれるカテゴリの製品の人気機種です。私は初代モデルを愛用しています。

何がいいかというと、センサーサイズが1型で、普通のコンパクトデジカメより大きくて画質が良いというのが第一。もちろん一眼カメラには劣りますが、見た目にはただのコンデジなのにいい画が撮れるというのが良いです。大きなカメラだと大仰な場面は多いですからね。

写すのにも一眼レフカメラと同じように絞り優先やシャッタースピード優先といったモードで撮影できます。さらにRAWファイルで保存でき、ソニーが無料で配布している現像ソフトやAdobe LightroomでRAW現像が可能です。デジタル一眼のサブ機のような使い勝手です。

もちろん、何も考えずにカメラにお任せで撮れるモードも用意されています。下手に自分であれこれするよりカメラ任せの方が良かったりして?

今回の新モデルはオートフォーカスが高性能化したのが売りのようです。日本での価格は未定ですが、約1,000米ドルとのことです。

旧モデルも狙い目

このシリーズ、5代目にはなりますが、ベースの部分はそんなに大きく変わらない(と思う)ので、値段の安くなった旧モデルを狙うのも手でしょう。

モデルによってレンズの焦点距離が微妙に違うとかEVF (電子ビューファインダー) の有無とか、なかなか悩ましい違いはあります。販売価格も結構違うようなので、興味を持った方は楽しく悩んでみてください。

こちらは私が愛用の初代RX100。Wi-Fi非搭載なので東芝のメモリカードFlashAirと一緒に使っています。(参考記事: 東芝Flash Air でソニー DSC-RX100 を Wi-Fi化する)

一方、こちらは現行の (今回発表のM5は除く) 最新モデルRX100M4。結構お高いですね...。

RX100で撮った写真の例

いくつか初代RX100で撮影した写真の例を。こちらは神戸の夜景の写真。HDR (ハイダイナミックレンジ) 機能がうまく働いてくれました。

こちらも神戸の夜景。色が綺麗に出ました。

東京、多摩川の夕景。映画「シン・ゴジラ」で自衛隊がゴジラと戦っていたあたりです。夕景が綺麗に写るのは嬉しい。

最後はカナダ・バンクーバーのビル群。海外旅行で荷物を減らしたいときにも便利です。

書家・金子鷗亭の作品の特別展が北海道立函館美術館で開催されるとのニュースがありました。

金子鷗亭とは

金子鷗亭は1906年生まれ、2001年没で、函館から比較的近い松前町の出身です。1990年に文化勲章を受章しています。漢文に偏ったそれまでの書のあり方を批判し、生活に近い口語文や短歌などを題材とすることを提唱、漢字・平仮名・片仮名の調和を重視したということです。日本酒「一ノ蔵」のラベルでも知られます。

鷗という字と文字コード

この「鷗」はJIS第3水準、面区点位置1-94-69にあります。鳥のカモメの意味です。音読みではオウと読みます。

PCでかもめと打って変換すると「鴎」の方が先に出てくることが多いでしょう。こちらはJIS第1水準、1-18-10です。

JIS X 0208はもともと、18-10の位置に「鷗」がありました。しかし1983年改正で「鴎」という略字体に変更されてしまいました。これは表外字なので常用漢字体ではありません。新聞の紙面では、独自に略したこの字体が採用されていたそうです。JIS X 0208の拡張版であるJIS X 0213で、元の字体が第3水準漢字として1-94-69に復活しました。

このニュース記事では注釈として「文字化けを回避するため「かもめ」の人名用漢字を鴎に置き換えました」と記しています。「「かもめ」の人名用漢字」というのは間違いとも言いにくいですがちょっと微妙な説明です。確かに「鷗」は人名用漢字に入っていますが、この説明だと「普通のカモメの漢字のほかに「人名用漢字のカモメ」という特殊な漢字がある」かのような理解をしてしまう人がいそうです。そうでなく、元来「かもめ」の漢字は「鷗」なのであり、この字は常用漢字表には入っていないが子の名付けに使って良い字に含まれている、というのが実際のところです。一方、「鴎」は新聞などで使われた「鷗」の略字体で、83JIS変更によってPCではこっちの字体しか出ない状態が長く続いたので広まっているものです。

このような面倒な説明を避けるためには記事で「鷗」を使えばいいわけですが、このニュースサイトはJIS X 0208ベースの Shift_JIS を使っているので「鷗」は表現できません。JIS X 0213ベースに拡張した Shift_JIS-2004 や、Unicodeの UTF-8を使えば問題なく表現できます。その際、単にHTMLだけでなく、記事の執筆・編集・管理といった作業工程全体で第3第4水準文字コードを用いることが必要です。

例えば、作業工程のあるフェーズで、UTF-8にて作成したファイルをSJISに変換する必要があるなら、Shift_JIS-2004を指定すれば良いです。これなら、「鷗」のような第3第4水準漢字や、非漢字たとえば著作権表示記号やユーロ記号なども文字化けしません。iconvコマンドではこうします:

  iconv -f UTF-8 -t SHIFT_JISX0213 < utf8.txt > sjis.txt

逆向きの変換、つまりSJISからUTF-8に変換するには、-f と -t を入れ替えてやります。これはCP932の波ダッシュ問題も引き起こさず、最も正当な変換結果が得られます。

  iconv -f SHIFT_JISX0213 -t UTF-8 < sjis.txt > utf-8.txt

余談ながら

冒頭の展覧会は道立函館美術館で12月11日まで開催とのことです。この美術館、函館の観光名所・五稜郭のすぐそばにあります。新幹線も開業したことですし、旅行の一環として行くのにも向いているでしょう。

下の画像は年末、雪の時期の五稜郭の写真です。12月11日だとまだ雪は積もっていないかもしれませんね。函館美術館はこの五稜郭を上から眺める五稜郭タワーの近くにあります。

台湾語を使った結婚会見

リオ五輪でも活躍した卓球の福原愛選手の結婚会見についての記事が目を引きました。

台湾の江宏傑選手と結婚したことから日本だけなく台湾でも会見が行われました。そこで福原選手の話した言葉を取り上げたものです。

福原選手は以前から中国で卓球のトレーニングをしてきたので中国語(標準語、いわゆる北京語)に堪能だとのことです。台湾でも大陸から来た政権のもとで標準語たる北京語が普及していますが、一方、現地の言葉として台湾語というのがある。これは台湾の対岸に位置する福建省で話される閩南語が元になっています。北京語とは大きく異なるものだそうです。

福原選手は台湾の会見では台湾語で挨拶して現地の人々から好評を得たそうです。

台湾の言語事情についての書籍

台湾語の事情については、以前、本の紹介の形で当ブログの記事に書いたことがあります。

ここで紹介した本、『初めて台湾語をパソコンに喋らせた男—母語を蘇らせる物語』は、思ったより複雑な台湾の言語事情を含め大変興味深く面白かったので、気になる方は是非読んでみてください。

第3水準漢字の必要性

冒頭のニュース記事では台湾語のルーツについて「ビン南語」と記されていました。「閩南語」の「閩」がJIS X 0208の第1・第2水準にない漢字なのでこういう表記になったのでしょう。この字はJIS X 0213の第3水準、面区点1-93-49にあります。JIS X 0213の第3・第4水準漢字が使える環境なら、問題なく漢字で入力できます。

SKKの第3第4水準辞書を使うと「びんなん」という読みから「閩南」に変換できます。Macの辞書にも入っています。

このようなことからも、JIS X 0208でなくJIS X 0213を用いることの重要性が分かります。SJISとUTF-8の間のコード変換では、iconvで "SHIFT_JIS" の代わりに "SHIFT_JISX0213" を指定すれば、この「閩南」も問題なく変換できます。常にこのやり方を用いることをおすすめします。