「プログラマのための文字コード技術入門」正誤表

拙著『プログラマのための文字コード技術入門』(技術評論社、2010年)の正誤表です。誤りがありましたことを深くお詫びいたします。

ページ位置備考
25 【第1刷のみ】第1段落3行目中国(削除) 中国にはGB 1988というISO/IEC 646国際基準版を元にした文字コード規格 がありますが、これは符号位置2/4を円記号(¥)にするという変更を行なって おり、基本符号表の枠組みに基づいた変種ではありません。したがって、ここに列挙するには 適当ではありません。
208ページ中頃のHTMLソース</a></span>
301最後の段落、「一方、UTF-16...」以降(備考参照) (備考参照)UTF-16では制御文字CRのバイト表現は00 0Dのような 連続した2バイトになるので、trで削除するということ自体そもそもできず、 適当な例ではありませんでした。 trの代わりに、Perlなどを使って00 0Dというバイト列をただ削除すると、例えば U+4E00 U+0D05 という文字の並びに対応するバイト列 4E 00 0D 05 の途中2バイトも対象に なってしまい、やはりテキストデータを壊してしまいます。 ここでの主旨は、UTF-16にはASCII制御文字のバイトも文字のコード値の中に 現れるので注意が必要だということです。
330下から8行目8ビット符号表のに割り当てるには、8ビット符号表に割り当てるには、
347下から2行目Shift_JISにあるのようなShift_JISにあるような
3637行目(末尾に右の文を追加)ただし、新規追加される絵文字の中には、面01でなくBMPの既存のブロックに追加されるものも一部あります。
364下から3行目絵柄を含まれています。絵柄が含まれています。

2010年2月19日 公開, 2011年11月4日 更新

最近のブログ記事

Unicode 10.0リリース、変体仮名を収録
Unicode 10.0が2017年6月…
Chrome 拡張機能 Personal Blocklist でパクリサイトをブロックしよう
Google検索結果からサイトを除外でき…
Unicode の嫌なところを触ってしまった Python
Pythonとlibiconv, nkf…
電子マネーiDの良さが今更ながら分かった
iDとはどんなものか 電子マネーというと…
書家の第3水準漢字が文字化けするわけ
北海道南部の松前町は、20世紀日本の書家…

広告