Unicode 9.0が出ています

| コメント(0) | トラックバック(0)

UnicodeコンソーシアムからUnicode 9.0が6月21日に出ました。

このバージョンではちょうど7,500文字が追加されたということです。数がずいぶん多いようにも思えますが、多くは西夏文字で、6,881文字あります。この数字はブロックTangut, Tangut Components, Ideographic Symbols and Punctuationの字数の合計です。

西夏文字についてはひとつ前の記事に書きました。

ISO/IEC 10646とUnicodeが同期するように更新というのはこういうことで、10646に追加された西夏文字がUnicodeでも追いかけるように追加されているわけです。逆、つまり先にUnicodeに入って後から10646に追加されるものもあります。先の記事のCJK統合漢字の追加9文字というのはUnicodeでは昨年のバージョン8.0で入ったものです。またU+301C波ダッシュ (WAVE DASH) の例示字形の修正もUnicodeではバージョン8.0で行われていました。

文字の追加に応じてUnicodeの文字情報を収めたテキストファイルUnicodeData.txtも当然更新されていますが、西夏文字については各文字について1行ではなく、漢字と同じようにコード範囲を示す形になっています。具体的には、「<Tangut Ideograph, First>」で範囲の最初が示され、次に「<Tangut Ideograph, Last>」で終わりが示されています。漢字のほかにも私用領域(PUA)やサロゲート領域を示すのにも同じ形式が使われています。

トラックバック(0)

トラックバックURL: http://yanok.net/yanok/mt-tb.cgi/605

コメントする

最近のブログ記事

仮名合字・合略仮名の文字コード
合字とは 合字というものがあります。複数…
なぜ『プログラマのための文字コード技術入門』の改訂新版にはSKKと Emacsの話が入っていないのか
拙著『[改訂新版] プログラマのための文…
朝鮮半島の訃報の第3水準漢字
朝鮮戦争で韓国軍として活躍した白善燁氏が…
テレワークの環境改善〜CO2濃度をチェックする
テレワークの問題点 新型コロナウイルスの…
エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開
「エンジニアHub」にて記事を執筆しまし…

広告