用户:Arnie97/Unicode字符属性

Unicode 字符属性(Character Properties)是Unicode标准中与码位实体相对应的一组字段,每个属性都有独一无二的名称,同时标准预先定义了每个属性的有效取值范围[1]

Properties have levels of forcefulness: normative, informative, contributory, or provisional.

这些属性有助于正确的处理Unicode文本,例如确定合适的换行位置、文字书写方向等。 属性和属性的值有预先定义好的名称和缩写[2]。Unicode标准#44号附录中详细描述了这些属性[3]

名称

编辑

Unicode字符拥有一个独一无二的名称(Name),用英文描述了对应字符的性质。名称只由大写拉丁字母AZ),阿拉伯数字09),连字符(-) 和空格这些ASCII字符组成;其中连字符和空格不会连续出现,且不会位于名称的开头和结尾。例如,中文句号 U+3002 的名称是IDEOGRAPHIC FULL STOP中日韩统一表意文字 U+6F22 的名称是CJK UNIFIED IDEOGRAPH-6F22

用于排版的空格等字符同样有自己的名称,如 U+00A0   的名称是NO-BREAK SPACE。但并非所有码位都有相应的名称;控制字符私人使用区(PUA)码位、代理对(Surrogates)、非字符码位(Non-characters)、保留码位和未分配码位等并没有对应的名称。为了便于辨识这些码位,Unicode为这些码位分配了标签(Code Point Labels)[4];标签的形式通常是包含在尖括号中的小写英文描述,以避免与名称相混淆,例如换行符的码位和标签分别是 U+000A <control-000A>

自Unicode 2.0版本起,已发布的码位名称将永远保持不变。若名称当中出现了拼写错误等情形,更正后的新名称被作为字符别名(Name Alias)分配给这个码位。别名同样是独一无二的,不允许与其他字符的名称或别名相同。

除了上面这些标准化的名称以外,字符还可以有多条非正式名称。这些非正式名称往往取自字符的常用称呼,起到补充说明的作用,不保证唯一性。

区段

编辑

区段(Block)指的是码位所属的范围,通常用于组织码位的分配方式。区段会被给予唯一的名称,且区段与区段间不会重叠。通常一个最小的区段至少包含16个码位。

通用类别

编辑

每个Unicode码位都属于某个通用类别(General Category),即便是未分配的码位也不例外[5]

参考文献

编辑
  1. ^ The Unicode Consortium. 3.5. The Unicode Standard (pdf) 11.0. Mountain View, CA. 2018-06: 95 [2018-07-04]. ISBN 978-1-936213-19-1 (英语). D19 Property: A named attribute of an entity in the Unicode Standard, associated with a defined set of values. 
  2. ^ The Unicode Standard, Version 11.0, Chapter 3: Conformance
  3. ^ UAX #44: Properties
  4. ^ UAX #44: Code Point Labels
  5. ^ UAX #44: General Category Values