「プログラマのための文字コード技術入門」正誤表

拙著『プログラマのための文字コード技術入門』(技術評論社、2010年)の正誤表です。誤りがありましたことを深くお詫びいたします。

ページ位置備考
25 【第1刷のみ】第1段落3行目中国(削除) 中国にはGB 1988というISO/IEC 646国際基準版を元にした文字コード規格 がありますが、これは符号位置2/4を円記号(¥)にするという変更を行なって おり、基本符号表の枠組みに基づいた変種ではありません。したがって、ここに列挙するには 適当ではありません。
208ページ中頃のHTMLソース</a></span>
301最後の段落、「一方、UTF-16...」以降(備考参照) (備考参照)UTF-16では制御文字CRのバイト表現は00 0Dのような 連続した2バイトになるので、trで削除するということ自体そもそもできず、 適当な例ではありませんでした。 trの代わりに、Perlなどを使って00 0Dというバイト列をただ削除すると、例えば U+4E00 U+0D05 という文字の並びに対応するバイト列 4E 00 0D 05 の途中2バイトも対象に なってしまい、やはりテキストデータを壊してしまいます。 ここでの主旨は、UTF-16にはASCII制御文字のバイトも文字のコード値の中に 現れるので注意が必要だということです。
330下から8行目8ビット符号表のに割り当てるには、8ビット符号表に割り当てるには、
347下から2行目Shift_JISにあるのようなShift_JISにあるような
3637行目(末尾に右の文を追加)ただし、新規追加される絵文字の中には、面01でなくBMPの既存のブロックに追加されるものも一部あります。
364下から3行目絵柄を含まれています。絵柄が含まれています。

2010年2月19日 公開, 2011年11月4日 更新

最近のブログ記事

libiconv に JIS X 0213がない場合
GNU libiconvはJIS X 0…
「キュレーション」なる語について
DeNAのキュレーションサイトWelqの…
雪の青の夜景、札幌と函館
何日か前の朝のNHKニュースで札幌の夜景…
「2バイト文字」という言い方
「2バイト文字」という言い方につっこみを…
EUCが国際標準化されていれば良かった
すごい後知恵なんですが、1980年代に「…

広告