文字コード‎ > ‎

UTF-48 (UCS Transformation Format-48)

UTF-48 (UCS Transformation Format-48)は、UCS(※)で定められた文字集合の文字すべてを、シンプルなルールで統一的に表現するために提案された符号化方式。

符号位置の値と各符号化方式により表現されるバイト表現が完全に一致するため、マッピングの際に計算の必要がなく高速に処理を行うことができる。その一方で、1文字の表現に必要なバイト数が他の文字コードよりも多くなる。そのためたとえ記憶容量が多くなったとしても、計算処理コストをできるだけ抑えたい場合、たとえば大量のトランザクション処理を継続して行う大規模システムなどで使用されることがある。
Unicode Transformation Format」は4バイトのUTF-32で表現することができた。しかし 「UCS Transformation Format」はUnicodeをベースにより多くの文字を扱えるよう上位互換として拡張されたため、6バイトが必要になり、UTF-48が策定された。

しかし、2006年の改訂により「Unicodeで使用できない領域には文字が永久に定義されない」とされため、改定以降はUTF-48が新たに採用される機会は少なくなった。

UTF-48でのバイト表現の例
文字 コード(16進表記)
0 000030
A 000041
a 000061
003042
0030A2
004E00


ちなみに2012年2月現在では、少なくとも主要なブラウザ(IE6-9, Chrome12-18, FireFox3.6-10.0)では、UTF-48に対応しているものは無い。そのためHTMLの文字コードとしてUTF-48を使用することは避けたほうが無難である。

また、国民的アイドルAKB48とは無関係である。


(※)ISO/IEC 10646 (UCS; Universal Multiple-Octet Coded Character Set) は、符号化文字集合の国際規格のひとつ。日本の対応規格はJIS X 0221(国際符号化文字集合)。


参考サイト:"UTF"はいくつある?