可变宽度编码

字符编码方案

可变宽度编码是一种字符编码方案,其中借由不同长度的代码,对字符集(符号库)进行编码以表示文字,通常使用于计算机中。[1][a]最常见的可变宽度编码为多字节编码,它使用不同数量的字节(或称八位字节)来编码不同的字符。(有些作者,尤其在微软文档中,使用“多字节字符集”这一术语。但这样实属用词不当,因表示大小是编码的属性,而非字符集的属性。 )

在早期的微型计算机冒险游戏中,有时为将英文文本打包成更少的字节,使用每个字符少于一个字节的早期可变宽度编码。然而,因与磁带不同,它允许随机访问,允许按需加载文本的磁盘的产生与计算机内存的增加和通用压缩算法的运用,使这些技巧在很大程度上已经过时。

多字节编码多为因增加字符数量而不致破坏与已存在的限制之间的向后兼容性而产生。例如,若每个字符以一个字节(8比特)存储,则最多可编码256个可能的字符;故为了编码数量超过256个的字符,显而易见的选择则是每个编码单元使用两个及以上数量的字节,如两个字节(16比特)可编码65536个可能的字符,但这样的改变将会破坏与已存在之系统的兼容性,故可能根本便不可行。

注释

编辑
  1. ^ The concept long precedes the advent of the electronic computer, however, as seen with Morse code.

参考文献

编辑
  1. ^ Crispin, M. UTF-9 and UTF-18 Efficient Transformation Formats of Unicode. 2005-04 [2022-09-23]. doi:10.17487/rfc4042. (原始内容存档于2022-10-05) (英语).