著書: 「プログラマのための文字コード技術入門」(技術評論社)

"知識と技術の両面から文字コードを理解できる評判通りの良書"
マイコミジャーナル BOOK REVIEW

『プログラマのための文字コード技術入門』書影

文字コードはソフトウェア技術者にとって必須の知識です。本書は、プログラマをはじめとしたソフトウェア技術者を主な対象として、文字コードの基礎知識を体系的に説明する本です。

文字コードの基本的な概念から始めて、これまでの文字コードの大まかな変遷、現在よく用いられる代表的な文字コード規格を紹介。さらに、コード変換・判別技術の実際や、インターネットにおける文字コードの扱い、プログラミング言語(JavaとRuby 1.8/1.9)における文字コード、それにありがちなトラブルの原因等を説明します。

JIS漢字やUnicodeといった主要な文字コードの構成や特徴を重点的に取り上げて解説することはもちろん、諸外国の文字コードの概説、Unicodeのこれから問題になりそうなトピックの概要 (正規化、絵文字標準化、IVS等) といった、より進んだ内容も幅広く取り上げています。

本書は、ジュンク堂書店池袋本店での2010年コンピュータ書売上冊数ランキング第4位にランクインしました!

【2014年12月13日追記】本書の電子書籍版が発売されました! 技術評論社の販売サイトからどうぞ。紙の書籍と同内容です。

オンライン書店で購入する

各オンライン書店の商品ページへのリンクです。お好きなところをご利用ください。

Amazon.co.jp | 紀伊國屋書店 | ジュンク堂書店 | セブンネットショッピング | bk1 | 楽天ブックス

(以上、五十音順)

電子書籍版を技術評論社の販売サイトから購入できます:

書籍概要

書名
プログラマのための文字コード技術入門
著者
矢野啓介
出版者
技術評論社
発行
2010年2月18日
ISBN
978-4-7741-4164-0

補足情報

本書のmixiページを作ってみました。mixiをご利用の方はどうぞ。

評判

本書発売以来、ブログやTwitter等で多くのご好評をいただいています。ここではそのうちいくつかをご紹介します。

吉岡弘隆氏のブログ 「プログラマのための文字コード技術入門を読んだ」より:

プログラマにとって必要な文字コードの技術的課題について網羅的にバランスよく取り上げられていて、入門書としては最適だと思う。さらに突っ込んだことを理解したければ、国際標準など原典にあたればよい。本書の知識があれば、標準なども読みこなせると思う。

良書である。

奥村晴彦氏(三重大学教授、『LaTeX2e美文書作成入門』著者)のツイートより:

『プログラマのための文字コード技術入門』も良書。JavaとRuby 1.8と1.9の違いもわかる。全角と半角について誤解している人にもお薦め。

江渡浩一郎氏(メディアアーティスト、『パターン、Wiki、XP 〜時を超えた創造の原則』著者)のツイートより:

無茶苦茶面白かった。文字コードについて丁寧にわかりやすく説明しようと思うと、これだけの分量になってしまうのだなーと思った。Java, Ruby 1.8, Ruby 1.9を使った説明も非常に適切。

目次

■第1章 文字とコンピュータ
1.1 コンピュータで文字を扱う基本
1.2 文字を符号化するということ
1.3 文字集合と符号化文字集合
1.4 制御文字 ----文字ではない文字
1.5 文字コードはなぜ複雑になるのか
1.6 まとめ
■第2章 文字コードの変遷
2.1 最もシンプルな文字コード ----ASCII、ISO/IEC 646
2.2 文字コードの構造と拡張方法を定める ----ISO/IEC 2022
2.3 2バイト符号化文字集合の実用化 ----JIS X 0208、各種符号化方式
2.4 1バイト符号化文字集合の広がり ----ISO/IEC 8859、Latin-1
2.5 国際符号化文字集合の模索と成立 ----Unicode、ISO/IEC 10646
2.6 まとめ
■第3章 代表的な符号化文字集合
3.1 ASCIIとISO/IEC 646 ----最も基本的な1バイト文字集合
3.2 JIS X 0201 ----ラテン文字と片仮名の1バイト文字集合
3.3 JIS X 0208 ----日本の最も基本的な2バイト文字集合
3.4 JIS X 0212 ----補助漢字
3.5 JIS X 0213 ----漢字第3・第4水準への拡張
3.6 ISO/IEC 8859シリーズ ----欧米で広く使われる1バイト符号化文字集合
3.7 UnicodeとISO/IEC 10646 ----国際符号化文字集合
■第4章 代表的な文字符号化方式
4.1 JIS X 0201の符号化方式
4.2 JIS X 0208の符号化方式
4.3 Unicodeの符号化方式
■第5章 文字コードの変換と判別
5.1 コード変換とは
5.2 変換の実際 ----変換における考え方
5.3 文字コードの自動判別
5.4 まとめ
■第6章 インターネットと文字コード
6.1 電子メールと文字コード
6.2 Webと文字コード
6.3 まとめ
■第7章 プログラミング言語と文字コード
7.1 Java ----内部処理をUnicodeで行う
7.2 Ruby 1.8 ----シンプルな日本語化
7.3 Ruby 1.9 ----CSI方式で多様な文字コードを処理
7.4 まとめ
■第8章 はまりやすい落とし穴とその対処
8.1 トラブル調査の必須工具 ----16進ダンプツール
8.2 文字化け
8.3 改行コード
8.4 「全角・半角」問題
8.5 円記号問題
8.6 波ダッシュ問題
8.7 まとめ
■Appendix
A.1 ISO/IEC 2022のもう少しだけ詳しい説明
A.2 JIS X 0213の符号化方式
A.3 諸外国・地域の文字コード概説
A.4 Unicodeの諸問題
A.5 EmacsとSKKによるJIS2004の活用 ----本書執筆の舞台裏
A.6 規格の入手・閲覧方法ならびに参考文献

最近のブログ記事

libiconv に JIS X 0213がない場合
GNU libiconvはJIS X 0…
「キュレーション」なる語について
DeNAのキュレーションサイトWelqの…
雪の青の夜景、札幌と函館
何日か前の朝のNHKニュースで札幌の夜景…
「2バイト文字」という言い方
「2バイト文字」という言い方につっこみを…
EUCが国際標準化されていれば良かった
すごい後知恵なんですが、1980年代に「…

広告