基本拉丁字母 (Unicode区段)

基本拉丁字母Basic Latin),又称C0控制字符及基本拉丁字母C0 Controls and Basic Latin),是Unicode标准下的首个Unicode区段,亦是唯一一个在UTF-8下,以单一字节编码的区段。此区段包含ASCII编码下所有字母英语ISO basic Latin alphabet控制字符。该区段的范围为U+0000..U+007F(共128个字符),包含C0控制字符、ASCII标点符号规约符号ASCII数字英文字母中的大写小写字母,以及一个控制字符。

C0控制字符及基本拉丁字母
C0 Controls and Basic Latin
范围U+0000..U+007F
(128个码位)
平面基本多文种平面BMP
文字拉丁字母(52个)
通用(76个)
应用
符号系列
已分配128个码位
33个控制或格式
未分配0个保留码位
来源标准ISO/IEC 8859 · ISO 646
注释[1][2]

基本拉丁字母区段内的字符Unicode标准的1.0版本起一直沿用至今,多年来未曾对此作出任何增减。[3]该区段在1.0版本的名称为ASCII[4]

字符表

编辑

下表列出基本拉丁字母包含的所有字符[5]

字符表
码位 显示 描述 缩写
C0控制字符
U+0000 空字符 NUL
U+0001 报头开始字符 SOH
U+0002 正文开始字符 STX
U+0003 文本结束字符英语End-of-text character ETX
U+0004 传输结束字符 EOT
U+0005 询问字符英语Enquriry character ENQ
U+0006 确认消息字符 ACK
U+0007 响铃字符英语Bell character BEL
U+0008 退格键 BS
U+0009 水平制表符 HT
U+000A 换行 LF
U+000B 垂直制表符 VT
U+000C 换页符英语Form feed FF
U+000D 回车符 CR
U+000E 移出字符 SO
U+000F 移入字符 SI
U+0010 数据发送换码 DLE
U+0011 设备控制符1 DC1
U+0012 设备控制符2 DC2
U+0013 设备控制符3 DC3
U+0014 设备控制符4 DC4
U+0015 否定确认消息字符 NAK
U+0016 同步空闲 SYN
U+0017 传输块结束字符英语End-of-Transmission-Block character ETB
U+0018 取消字符英语Cancel character CAN
U+0019 媒体结束字符 EM
U+001A 替代字符 SUB
U+001B 转义字符 ESC
U+001C 文件分隔符 FS
U+001D 分组符 GS
U+001E 记录分隔符 RS
U+001F 单元分隔符 US
ASCII标点及符号
U+0020   空格 SP
码位 显示 描述
U+0021 ! 叹号[注 1]
U+0022 " 引号[注 2]
U+0023 # 井号
U+0024 $ 比索符号
U+0025 % 百分号
U+0026 & &符号
U+0027 ' 撇号
U+0028 ( 左括号
U+0029 ) 右括号
U+002A * 星号
U+002B + 加号
U+002C , 逗号
U+002D - 连字暨减号
U+002E . 西文句号
U+002F / 斜线号
ASCII数字
U+0030 0 数字0
U+0031 1 数字1
U+0032 2 数字2
U+0033 3 数字3
U+0034 4 数字4
U+0035 5 数字5
U+0036 6 数字6
U+0037 7 数字7
U+0038 8 数字8
U+0039 9 数字9
ASCII标点及符号
U+003A : 冒号
U+003B ; 分号
U+003C < 小于号
U+003D = 等号
U+003E > 大于号
U+003F ? 问号
U+0040 @ @符号
码位 显示 描述
大写拉丁字母
U+0041 A 大写拉丁字母A
U+0042 B 大写拉丁字母B
U+0043 C 大写拉丁字母C
U+0044 D 大写拉丁字母D
U+0045 E 大写拉丁字母E
U+0046 F 大写拉丁字母F
U+0047 G 大写拉丁字母G
U+0048 H 大写拉丁字母H
U+0049 I 大写拉丁字母I
U+004A J 大写拉丁字母J
U+004B K 大写拉丁字母K
U+004C L 大写拉丁字母L
U+004D M 大写拉丁字母M
U+004E N 大写拉丁字母N
U+004F O 大写拉丁字母O
U+0050 P 大写拉丁字母P
U+0051 Q 大写拉丁字母Q
U+0052 R 大写拉丁字母R
U+0053 S 大写拉丁字母S
U+0054 T 大写拉丁字母T
U+0055 U 大写拉丁字母U
U+0056 V 大写拉丁字母V
U+0057 W 大写拉丁字母W
U+0058 X 大写拉丁字母X
U+0059 Y 大写拉丁字母Y
U+005A Z 大写拉丁字母Z
ASCII标点及符号
U+005B [ 左中括号
U+005C \ 反斜线 [A]
U+005D ] 右中括号
U+005E ^ 扬抑符
U+005F _ 下横线
U+0060 ` 重音符
码位 显示 描述
小写拉丁字母
U+0061 a 小写拉丁字母A
U+0062 b 小写拉丁字母B
U+0063 c 小写拉丁字母C
U+0064 d 小写拉丁字母D
U+0065 e 小写拉丁字母E
U+0066 f 小写拉丁字母F
U+0067 g 小写拉丁字母G
U+0068 h 小写拉丁字母H
U+0069 i 小写拉丁字母I
U+006A j 小写拉丁字母J
U+006B k 小写拉丁字母K
U+006C l 小写拉丁字母L
U+006D m 小写拉丁字母M
U+006E n 小写拉丁字母N
U+006F o 小写拉丁字母O
U+0070 p 小写拉丁字母P
U+0071 q 小写拉丁字母Q
U+0072 r 小写拉丁字母R
U+0073 s 小写拉丁字母S
U+0074 t 小写拉丁字母T
U+0075 u 小写拉丁字母U
U+0076 v 小写拉丁字母V
U+0077 w 小写拉丁字母W
U+0078 x 小写拉丁字母X
U+0079 y 小写拉丁字母Y
U+007A z 小写拉丁字母Z
ASCII标点及符号
U+007B { 左大括号
U+007C | 竖线
U+007D } 右大括号
U+007E ~ 波浪号
控制字符
U+007F 删除符[注 3]
A 字符U+005C(\)在日/韩语字体中或会显示成日元(¥)或韩圜符号(₩),皆因这些字体错误地视Unicode(尤其是UTF-8)为一款传统字符集,并将反斜线取代成这些符号。[6]

子标题

编辑

“C0控制字符及基本拉丁字母”区段内包含六个子标题。[5]

C0控制字符

编辑

“C0控制字符”(C0 Controls,于1.0版本中称为C0 ASCII控制符)乃继承自ASCII及其他7比特及8位编码系统。C0控制字符的别名乃基于ISO/IEC 6429:1992标准而取。[5]

ASCII标点及符号

编辑

此子标题乃指针准标点字符、简单数学运算符,以及比索符号($)、百分号、&符号、下划线和管道符号等符号。[5]

ASCII数字

编辑

“ASCII数字”(ASCII Digits)子标题包含标准欧式数字字符1-9及0。[5]

大写拉丁字母

编辑

“大写拉丁字母”(Uppercase Latin alphabet)子标题包含26个标准、无附加符号的大写拉丁字母。[5]

小写拉丁字母

编辑

“小写拉丁字母”(Lowercase Latin alphabet)子标题包含26个标准、无附加符号的小写拉丁字母。[5]

控制字符

编辑

“控制字符”(Control Character)子标题仅包含“删除”字符。[5]

符号、字母与控制符数量

编辑

下表列出C0控制字符及基本拉丁字母区段中,各子标题的字母、符号与控制符数量。

子标题名称 符号数量 字符代码范围
C0控制字符 32个控制字符 U+0000..U+001F
ASCII标点及符号 33个标点符号与符号 U+0020..U+002FU+003A..U+0040U+005B..U+0060U+007B..U+007E
ASCII数字 10个数字 U+0030..U+0039
大写拉丁字母 26个无附加符号的大写拉丁字母 U+0041..U+005A
小写拉丁字母 26个无附加符号的小写拉丁字母 U+0061..U+007A
控制字符 1个包含“删除”字符的控制字符 U+007F

区块

编辑
C0控制字符和基本拉丁字母
C0 Controls and Basic Latin[a]
Unicode Consortium 官方码表 (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+000x NUL SOH STX ETX EOT ENQ ACK BEL  BS   HT   LF   VT   FF   CR   SO   SI 
U+001x DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN  EM  SUB ESC  FS   GS   RS   US 
U+002x  SP  ! " # $ % & ' ( ) * + , - . /
U+003x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
U+004x @ A B C D E F G H I J K L M N O
U+005x P Q R S T U V W X Y Z [ \ ] ^ _
U+006x ` a b c d e f g h i j k l m n o
U+007x p q r s t u v w x y z { | } ~ DEL
  1. ^ 截至Unicode版本 15.1

变体

编辑

部分字符若跟从变体指示器(variant indicators),则会以标准化变体的定义生成。

区段内亦有一个为字符“0”定义、带有短对角斜线的变体0︀U+0030 DIGIT ZERO U+FE00 VS1)。[7][8]

12个字符可透过U+FE0E VS15U+FE0F VS16以生成绘文字变体。[9][10][11][12]它们均为键帽英语Keycap基底字符(base characters),如#️⃣(U+0023 NUMBER SIGN U+FE0F VS16 U+20E3 COMBINING ENCLOSING KEYCAP)。VS15版本是“文字样式”,而VS16版本则为“绘文字样式”。[8]

绘文字可选变体
U+ 0023 002A 0030 0031 0032 0033 0034 0035 0036 0037 0038 0039
基本码位 # * 0 1 2 3 4 5 6 7 8 9
基本+VS15+键帽 #︎⃣ *︎⃣ 0︎⃣ 1︎⃣ 2︎⃣ 3︎⃣ 4︎⃣ 5︎⃣ 6︎⃣ 7︎⃣ 8︎⃣ 9︎⃣
基本+VS16+键帽 #️⃣ *️⃣ 0️⃣ 1️⃣ 2️⃣ 3️⃣ 4️⃣ 5️⃣ 6️⃣ 7️⃣ 8️⃣ 9️⃣

历史

编辑

以下与Unicode相关的文档记录了在基本拉丁字母区块中定义特定字符的目的和过程:

参见

编辑

注释

编辑
  1. ^ 缩写为EXC
  2. ^ 缩写为QUO
  3. ^ 缩写为DEL

参考资料

编辑
  1. ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始内容存档于2017-09-25) (英语). 
  2. ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始内容存档于2016-06-29) (英语). 
  3. ^ The Unicode Standard Version 1.0, Volume 1. Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1. 
  4. ^ 3.8: Block-by-Block Charts (PDF). The Unicode Standard. version 1.0. Unicode Consortium. [2022-05-17]. (原始内容 (PDF)存档于2021-02-11) (英语). 
  5. ^ 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Unicode 6.2 code charts (PDF). The Unicode Standard. [2013-04-01]. (原始内容 (PDF)存档于2018-07-04) (英语). 
  6. ^ Michael S. Kaplan. When is a backslash not a backslash?. Sorting it all Out. Microsoft. 2005-09-17. (原始内容存档于2010-06-12) (美国英语).  亦可于 http://archives.miloush.net/michkap/archive/2005/09/17/469941.html页面存档备份,存于互联网档案馆) 查阅。
  7. ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray. L2/15-268: Proposal to Represent the Slashed Zero Variant of Empty Set (PDF). 2015-10-30 [2022-05-17]. (原始内容 (PDF)存档于2016-10-21) (英语). 
  8. ^ 8.0 8.1 UTS #51 Emoji Variation Sequences. The Unicode Consortium. [2022-05-17]. (原始内容存档于2022-03-31) (英语). 
  9. ^ Edberg, Peter. L2/11-438: Emoji Variation Sequences (Revision of L2/11-429) (PDF). 2011-12-22 [2022-05-17]. (原始内容 (PDF)存档于2022-06-10) (英语). 
  10. ^ Pournader, Roozbeh. L2/15-301: A proposal for 278 standardized variation sequences for emoji (PDF). 2015-11-01 [2022-05-17]. (原始内容 (PDF)存档于2022-03-31) (英语). 
  11. ^ UTR #51: Unicode Emoji. Unicode Consortium. 2020-02-11 [2022-05-17]. (原始内容存档于2019-05-01) (英语). 
  12. ^ UCD: Emoji Data for UTR #51. Unicode Consortium. 2021-08-26 [2022-05-17]. (原始内容存档于2022-03-28) (英语).