文字コード‎ > ‎

文字集合と符号化方式と文字コード

文字集合・符号化方式・文字コードの関係を直感的に理解しやすいように表形式でまとめました。

1つの文字集合に対し複数の符号化方式が対応していたり、逆に複数の文字集合に1つの符号化方式が対応している場合もあります。また単純に1つの文字集合に1つの符号化方式が対応しているケースもあります。

「文字集合と符号化方式を掛け合わせた結果が文字コード」といっていいでしょう。

文字集合
character set
符号化方式
character encoding scheme
文字コード
ASCII なし ASCII
JIS X 0201+JIS X 0208+α Shift_JIS MS932
JIS X 0201+JIS X 0208
(JISで定めた日本語のセット)
Shift_JIS
ISO-2022-JP JIS
EUC EUC-JP
KS X 1001
(ハングルと漢字のセット)
EUC-KR
GB 2312
(簡体字中国語のセット)
EUC-CN
Unicode UTF-8 UTF-8
UTF-8N
UTF-16BE UTF-16
UTF-16LE
UTF-32BE UTF-32
UTF-32LE
Punycode Punycode

「EUC」は文字集合・符号化方式・文字コードの違いや関係を理解するのに適した例だと思います。日本でEUCといえばEUC-JPのことですが、これは「JIS X 0201+JIS X 0208」の日本語の文字集合を、EUCという符号化方式に基づき処理したものです。

ハングル文字と漢字の文字集合「KS X 1001」をEUCで処理したものがEUC-KR、中国語簡体字の文字集合「GB 2312」をEUCで処理したものがEUC-CNです。EUCがマッピングの方式にすぎないことが分かると思います。

文字コード - Wikipedia

2011/10/10