基本拉丁字母 (Unicode区段)

基本拉丁字母Basic Latin),又称C0控制字符及基本拉丁字母C0 Controls and Basic Latin),是Unicode标准下的首个Unicode区段,亦是唯一一个在UTF-8下,以单一字节编码的区段。此区段包含ASCII编码下所有字母英语ISO basic Latin alphabet控制字符。该区段的范围为U+0000..U+007F(共128个字符),包含C0控制字符、ASCII标点符号规约符号ASCII数字英文字母中的大写小写字母,以及一个控制字符。

C0控制字符及基本拉丁字母
C0 Controls and Basic Latin
范围U+0000..U+007F
(128个码位)
平面基本多文种平面BMP
文字拉丁字母(52个)
通用(76个)
应用
符号系列
已分配128个码位
33个控制或格式
未分配0个保留码位
来源标准ISO/IEC 8859 · ISO 646
注释[1][2]

基本拉丁字母区段内的字符Unicode标准的1.0版本起一直沿用至今,多年来未曾对此作出任何增减。[3]该区段在1.0版本的名称为ASCII[4]

字符表 编辑

下表列出基本拉丁字母包含的所有字符[5]

子标题 编辑

“C0控制字符及基本拉丁字母”区段内包含六个子标题。[5]

C0控制字符 编辑

“C0控制字符”(C0 Controls,于1.0版本中称为C0 ASCII控制符)乃继承自ASCII及其他7比特及8位编码系统。C0控制字符的别名乃基于ISO/IEC 6429:1992标准而取。[5]

ASCII标点及符号 编辑

此子标题乃指针准标点字符、简单数学运算符,以及比索符号($)、百分号、&符号、下划线和管道符号等符号。[5]

ASCII数字 编辑

“ASCII数字”(ASCII Digits)子标题包含标准欧式数字字符1-9及0。[5]

大写拉丁字母 编辑

“大写拉丁字母”(Uppercase Latin alphabet)子标题包含26个标准、无附加符号的大写拉丁字母。[5]

小写拉丁字母 编辑

“小写拉丁字母”(Lowercase Latin alphabet)子标题包含26个标准、无附加符号的小写拉丁字母。[5]

控制字符 编辑

“控制字符”(Control Character)子标题仅包含“删除”字符。[5]

符号、字母与控制符数量 编辑

下表列出C0控制字符及基本拉丁字母区段中,各子标题的字母、符号与控制符数量。

子标题名称 符号数量 字符代码范围
C0控制字符 32个控制字符 U+0000..U+001F
ASCII标点及符号 33个标点符号与符号 U+0020..U+002FU+003A..U+0040U+005B..U+0060U+007B..U+007E
ASCII数字 10个数字 U+0030..U+0039
大写拉丁字母 26个无附加符号的大写拉丁字母 U+0041..U+005A
小写拉丁字母 26个无附加符号的小写拉丁字母 U+0061..U+007A
控制字符 1个包含“删除”字符的控制字符 U+007F

区块 编辑

C0控制字符和基本拉丁字母
C0 Controls and Basic Latin[1]
Unicode Consortium 官方码表 (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+000x  NUL   SOH   STX   ETX   EOT   ENQ   ACK   BEL    BS     HT     LF     VT     FF     CR     SO     SI  
U+001x  DLE   DC1   DC2   DC3   DC4   NAK   SYN   ETB   CAN    EM    SUB   ESC    FS     GS     RS     US  
U+002x   SP   ! " # $ % & ' ( ) * + , - . /
U+003x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
U+004x @ A B C D E F G H I J K L M N O
U+005x P Q R S T U V W X Y Z [ \ ] ^ _
U+006x ` a b c d e f g h i j k l m n o
U+007x p q r s t u v w x y z { | } ~  DEL 
注释
1.^ 依据 Unicode 14.0

变体 编辑

部分字符若跟从变体指示器(variant indicators),则会以标准化变体的定义生成。

区段内亦有一个为字符“0”定义、带有短对角斜线的变体0︀U+0030 DIGIT ZERO U+FE00 VS1)。[7][8]

12个字符可透过U+FE0E VS15U+FE0F VS16以生成绘文字变体。[9][10][11][12]它们均为键帽英语Keycap基底字符(base characters),如#️⃣(U+0023 NUMBER SIGN U+FE0F VS16 U+20E3 COMBINING ENCLOSING KEYCAP)。VS15版本是“文字样式”,而VS16版本则为“绘文字样式”。[8]

绘文字可选变体
U+ 0023 002A 0030 0031 0032 0033 0034 0035 0036 0037 0038 0039
基本码位 # * 0 1 2 3 4 5 6 7 8 9
基本+VS15+键帽 #︎⃣ *︎⃣ 0︎⃣ 1︎⃣ 2︎⃣ 3︎⃣ 4︎⃣ 5︎⃣ 6︎⃣ 7︎⃣ 8︎⃣ 9︎⃣
基本+VS16+键帽 #️⃣ *️⃣ 0️⃣ 1️⃣ 2️⃣ 3️⃣ 4️⃣ 5️⃣ 6️⃣ 7️⃣ 8️⃣ 9️⃣

历史 编辑

以下与Unicode相关的文档记录了在基本拉丁字母区块中定义特定字符的目的和过程:

参见 编辑

注释 编辑

  1. ^ 缩写为EXC
  2. ^ 缩写为QUO
  3. ^ 缩写为DEL

参考资料 编辑

  1. ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始内容存档于2017-09-25) (英语). 
  2. ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始内容存档于2016-06-29) (英语). 
  3. ^ The Unicode Standard Version 1.0, Volume 1. Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1. 
  4. ^ 3.8: Block-by-Block Charts (PDF). The Unicode Standard. version 1.0. Unicode Consortium. [2022-05-17]. (原始内容 (PDF)存档于2021-02-11) (英语). 
  5. ^ 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Unicode 6.2 code charts (PDF). The Unicode Standard. [2013-04-01]. (原始内容 (PDF)存档于2018-07-04) (英语). 
  6. ^ Michael S. Kaplan. When is a backslash not a backslash?. Sorting it all Out. Microsoft. 2005-09-17. (原始内容存档于2010-06-12) (美国英语).  亦可于 http://archives.miloush.net/michkap/archive/2005/09/17/469941.html页面存档备份,存于互联网档案馆) 查阅。
  7. ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray. L2/15-268: Proposal to Represent the Slashed Zero Variant of Empty Set (PDF). 2015-10-30 [2022-05-17]. (原始内容 (PDF)存档于2016-10-21) (英语). 
  8. ^ 8.0 8.1 UTS #51 Emoji Variation Sequences. The Unicode Consortium. [2022-05-17]. (原始内容存档于2022-03-31) (英语). 
  9. ^ Edberg, Peter. L2/11-438: Emoji Variation Sequences (Revision of L2/11-429) (PDF). 2011-12-22 [2022-05-17]. (原始内容 (PDF)存档于2022-06-10) (英语). 
  10. ^ Pournader, Roozbeh. L2/15-301: A proposal for 278 standardized variation sequences for emoji (PDF). 2015-11-01 [2022-05-17]. (原始内容 (PDF)存档于2022-03-31) (英语). 
  11. ^ UTR #51: Unicode Emoji. Unicode Consortium. 2020-02-11 [2022-05-17]. (原始内容存档于2019-05-01) (英语). 
  12. ^ UCD: Emoji Data for UTR #51. Unicode Consortium. 2021-08-26 [2022-05-17]. (原始内容存档于2022-03-28) (英语).