2016年12月アーカイブ

GNU libiconvはJIS X 0213の符号化方式、Shift_JIS-2004 (Shift_JISX0213) や EUC-JIS-2004 (EUC-JISX0213) に対応していますが、コマンドを実行した際にこれらが入っていない場合もあり得ます。入っているかどうかはiconvのコマンドラインオプション --list で確かめられます。

これらの符号化方式に対応するには、ビルドする際にconfigureのオプション --enable-extra-encodings を指定しておく必要があるようです。インストールされているiconvコマンドでShift_JIS-2004が使えないときはこれが指定されていなかった可能性があります。もしこれらの符号化方式が入ってなかったら、管理者に相談するか、そうでなければ、自分でソースをダウンロードして上記のオプションを用いてビルドしてみるのもいいでしょう。

SJISやEUCと変換するときは常にShift_JIS-2004, EUC-JIS-2004を使いたいので、これらに対応した iconv コマンドを用意しておきたいものです。

参考: GNU libiconv

DeNAのキュレーションサイトWelqの大炎上に端を発して、様々な「キュレーションメディア」の問題が注目されています。他のサイトから著作権無視でパクった文章や写真をつなぎ合わせただけのいいかげんな記事をありえない激安報酬のクラウドワーカーに大量生産させてSEOテクニックでGoogle検索上位を独占している、といった問題です。

ここではこの「キュレーション」なる語に注目してみます。キュレーションサイト問題を扱ったネットの記事では、キュレーションというのは本来は高度な知識を要するものなのだ、といっていたりしますが、それはどれくらい本当か、というのも問題意識にあります。

一般向けの辞書を引いてみる

研究社の新英和中辞典では、curatorという単語に、「(博物館・図書館などの)館長、主事」という説明が与えられています。いわゆるキュレーションというのは、この語から逆成した造語ではないかと思います。というのは、同辞書にはcurationという単語は立項されていないからです。同じく学習者向けという位置付けの、英英辞典 Longman Dictionary of Contemporary English 4th Editionでも同様です。

おそらく、「curateという動詞があってそこからcurationやcuratorという名詞ができた」となんとなく思っている人がいると思いますが (私は最初そう思った)、辞書を引いて分かるところでは、そうではありません。

curateという語は動詞でなく名詞で、キリスト教の教会の役職を表す言葉のようです。英和中辞典では「(教区の)副牧師」「助任司祭」、Longmanでは「a priest of the lowest rank, whose job is to help the priest who is in charge of an area」とされています。ラテン語からきており、cureと関係のある言葉です。

図書館でオックスフォード英語辞典 (OED) 第2版をひいてみると、curate, curatorとの並びにcurationという語もあります。これも教会関係の語で、cureすることが中心的な意味になります。これらの語の説明のうち、博物館の管理業務のような現代的な意味はcuratorの語の項目の最後に記されているのみです。curationという語にはそのような意味は記されていません。

Digital curationという用法

Google Scholarを検索してみると、2000年代からdigital curationという語が学術論文で使われるようになったようです。きちんと調べたわけではなくいくつかの記事の梗概を見ただけですが、これは蓄積されたデジタルコンテンツを将来にわたってアクセス可能にするために維持管理していく活動を指しているようです。おそらく、curatorという語から、博物館の収蔵品の管理という意味合いに基づいて派生した語法ではないかと思います。

ここには、ネット検索で出てきたものを切り貼りしてサイトを作るという意味はありません。

そして今問題の「キュレーション」は

そこから先の展開はまだ追っていない (というか、どういうふうに誤解ないし我田引水したのか、先が読める気がして興味が潰えた) のですが、多分ウェブ業界の人がさらに独自の意見を加えて今の「キュレーションサイト」につながったのだろうと推測します。

もっとも、何も維持管理してなくてウェブの検索結果をコピペしてくるのが「キュレーション」というのはかなり無理があるように思えます。少なくとも何も「cure」していない、むしろ損なっているものの方が多いのではないでしょうか。

おわりに: 辞書くらい引こう

言葉について何か言いたいなら、まずは辞書を引くことだと思います。本当はどのような性質の辞書かということもあわせて考慮する必要があるのですが、それにしても辞書の一つにもあたらないで分かったつもりでいるよりは、何でもいいから手近な辞書を引いた方がずっと得るところがあります。

何日か前の朝のNHKニュースで札幌の夜景を紹介していました。札幌の夜景は近年注目を集めています。日本三大夜景のひとつにも数えられました。光の輝きが平野をどこまでも続くようなイメージが印象的です。

加えて、今の時期の特徴は、雪があることによる色味です。真っ暗になる前、まだ薄明の残っている時間帯は写真愛好家にはブルーアワーとかマジックアワーとか呼ばれて独特の青い色合いを出すことが知られていますが、雪があると青白さが一層際立ちます。街灯の黄色味のある光との対比があるとなお強く印象に残る景色になります。

過去に北海道で私の撮った写真からいくつか紹介したいと思います。

札幌の冬の夜景

まず札幌の夜景。

札幌中心部を見たものです。前方に大通公園、そしてその先にすすきのの街明かりがあります。建物の屋根の上に雪が積もっている、そのあたりは青白い光になり、一方で道路は街灯のオレンジ色の明かりで対照をなしています。

真っ暗になってしまうと雪の青白さは分からなくなってしまうので、時間帯の見極めが肝心です。

同じ構図でもう一枚。同じような機材で同じような時間帯に撮っていますが、まったく同じとはいきません。微妙に建物が増えているのが分かるでしょうか。

函館の冬夜景

北海道で夜景といえば有名なのは函館。

これは雪のあるときです。建物の上が青白いのが分かると思います。

もう少し前、明るい時間帯だとこうなります。

こちらの方が好みという人もいるでしょう。

時間が進んで暗くなるとこうなります。

こうなるともう雪の有無はあまり関係ない感じです。強いて言えば左手の海に突き出した「緑の島」や手前の街の方は青みを感じるでしょうか。

雪のない季節の札幌の夜景

参考まで、札幌の春の夜景から1枚。市街地の南西にある藻岩山からの眺めです。雪がないので建物に青白い感じはしません。ここからの眺望は素晴らしいので、雪のあるときに是非ここから夜景撮影をと思っているのですが、冬は寒そうですね。

関連記事

「2バイト文字」という言い方につっこみをしている人をあるところで見かけたので、これについて少々。

漢字や平仮名を「2バイト文字」のようにいう語法はずっと前からあります。昔からあるのだからいいのかというと、むしろこれは昔だからこそ便宜的に通用した言い方で、今では不適当です。順を追って説明します。

「何バイト」は文字そのものの性質ではない

まず、根本的なこととして、ある1文字の符号化表現に何バイトを要するかは、文字それ自体の属性ではなく、用いる文字コード (コード系) に依存することです。

例えば片仮名の「ア」を符号化するのに必要なバイト数は、JIS X 0201なら1バイト、JIS X 0213なら2バイト、UTF-8なら3バイト、UTF-32なら4バイトと様々に異なります。割り算の記号「÷」は、ISO/IEC 8859-1では1バイト、JIS X 0213では2バイト、UTF-32なら4バイト。

昔はあまり気にしなくてよかった

ただ、昔はそういう面倒なことを言わずに済んだのは、日本ではASCII/JIS X 0201とJIS X 0208だけを考えていれば良かったためです。これなら「漢字は2バイト文字」のような言い方で良かった。1バイトコードと2バイトコードを混在させると英数字や片仮名に1バイトと2バイトの両方が出てきますが、前者を「半角」後者を「全角」と呼ぶことであたかも別の文字のような扱いをすることで乗り切ってきた。

そういう牧歌的な時代が過ぎて、Unicodeが出てきたりまた8859など他の文字コードも意識するようになると、「どの文字コードの話をしているのか」をはっきりさせないと「何バイト」ということはいえなくなったわけです。

特定のコード系についての話ならOK

もっとも、逆に言えば、例えばShift_JIS-2004といった特定のコード系を前提とした場面では、「2バイト文字」とか「1バイト片仮名」といった言い方は全然アリです。

まとめ

  • 漢字や平仮名といった (コード系とは独立な) 文字種のつもりで「2バイト文字」というのは不適当。ある文字が何バイトかは用いるコード系による。
  • 特定のコード系を前提とした場面で、その系における1バイト文字、2バイト文字、のような言い方はOK。
  • なぜ昔はそういう煩わしいことを気にせずに済んだかというと、ASCII/JIS X 0201とJIS X 0208しか対象としていなかったから

関連記事

広告