中日韩统一表意文字

一組中文,日文和韓文統一碼區段符號

中日韩统一表意文字(英语:CJK Unified Ideographs),或译中日韩等同表意文字[1]中日韩认同表意文字[2]中日韩统一汉字集[3]中日韩统合汉字[4],又称作统汉码统一汉字集(英语:Unihan),建立目的是将琉球文起源相同、本义相通、形状一样或稍异的表意文字,在ISO 10646统一码标准赋予相同编码。这作业活动在统一码标准称为汉字等同[5](英语:Han unification,或译为汉字认同汉字统一汉字统合)。整理出来的中日韩统一表意文字,由统一码联盟建置的Unihan数据库维护。

中日韩越统一表意文字
字母 (Unicode)
上级分类CJK字元 编辑
所属实体通用字符集 编辑
话题方面Unihan数据库 编辑

中日韩统一汉字集所含括的對象为汉字及其派生出来的语素文字,包括繁体字简化字日本汉字漢字かんじ)、韩国汉字漢字한자)、琉球汉字漢字ハンジ)、越南的喃字𡨸喃Chữ Nôm)与儒字𡨸儒Chữ Nho)、方块壮字𭨡sawgun)。

历史 编辑

1978年,日本产业规格制订了基于ISO/IEC 2022JIS C 6226,为全世界最早的汉字编码,包含6349汉字。1980年代,台湾(CCCIICNS 11643)、中国大陆(GB 2312)、韩国(KS C 5601)开始制订了各自的编码规范。这些规范彼此之间并无连系。若要在一份文件中同时使用,则要以转义字符的方式来交换。

1980年,日本的国立国会图书馆的高桥德太郎以书目学的观点指出,统一的东亚汉字编码系统有必要。同年,台湾制定了三字节的中文信息交换码,这是第一款期望可以一致处理中国、日本、韩国汉字的编码。之后,美国的国会图书馆采用了此标准,并另外命名为东亚编码字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字编码委员会(ISO/TC 97/SC2)决议制订出一套编码规格(ISO 10646),是以交换文字集的方式来统一处理世界的文字。并成立了工作小组(ISO/TC 97/SC 2/WG 2)。这编码一开始的构想是采用16位,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对,并在1989年提出各国汉字统合集合(Han Character Collection,HCC)的构想。

1990年完成了ISO 10646的初版草案(DIS 10646)。汉字用32位表示,并将各国的汉字编码原封不动加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后能顺利讨论汉字编码及处理有关方针,并呼吁WG 2特别设置了中日韩联合研究小组(CJK-JRG,Joint Research Group,为表意文字小组的前身),以持续讨论。

另一方面,1987年,施乐的Joe Becker和Lee Collins开发了统合处理全世界所有文字的统一码。1989年发表了统一码概要。基本为16位。于是,中、日、韩的汉字统合了。基本方针以16位处理所有文字。1990年完成了基于此方针的最终草案。1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩类似的汉字使用约二万多字。为了未来扩展,保留了三万汉字以供其它用途。

1991年,各国希望能以一致的方式处理文字,否决了ISO/IEC 10646的初版草案。基于中国与统一码联盟的提议,ISO 10646和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自定义定规范、制作ISO 10646和统一码的统一汉字编码。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但发现一些缺失,之后修正。

1993年5月正式制订最初的“中日韩统一表意文字”位于U+4E00-U+9FFF,共20902字;不过汉字“”(U+3007)误当数字放入符号和标点区。一个月后制订了统一码1.1。

1999年,依据ISO/IEC 10646的第17修正案(Amendment 17)订定扩展区A,于U+3400-U+4DFF加入6582汉字。

2001年,依据ISO/IEC 10646-2新增扩展区B,于U+20000-U+2A6FF有42711汉字;但短时间内增加大量汉字,产生许多重复字形。

2005年,依据ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文种平面增加U+9FA6-U+9FBB,共22汉字。

2009年,统一码5.2扩展区C增加U+2A700-U+2B734,基本多文种平面增加U+9FC4-U+9FCB。

2010年,统一码6.0扩展区D增加U+2B740-U+2B81F。

2012年,统一码7.0基本多文种平面增加1汉字:U+9FCC。

2015年,统一码8.0扩展区E增加U+2B820-U+2CEAF,基本多文种平面增加U+9FCD-U+9FD5。

2017年,统一码10.0扩展区F增加U+2CEB0-U+2EBEF,基本多文种平面增加U+9FD6-U+9FEA。

2018年,统一码11.0基本多文种平面末尾增加5汉字:U+9FEB-U+9FEF。

2020年,统一码13.0增加4969汉字,其中4939字位于第三平面扩展区G,码位为U+30000-U+3134A。同时,亦在基本区增加13字:U+9FF0-U+9FFC,在扩展A区增加10字:U+4DB6-U+4DBF,在扩展B区增加7字:U+2A6D7-U+2A6DD。

2021年,统一码14.0基本多文种平面末尾增加3汉字:U+9FFC-U+9FFF。同时,亦在扩展B区增加2字:U+2A6DE-U+2A6DF,在扩展C区增加4字:U+2B735-U+2B738。

2022年,统一码15.0增加4193汉字,其中4192字位于第三平面的扩展区H,码位为U+31350-U+323AF。同时,亦在扩展C区增加7字:U+2B739。

2023年,统一码15.1增加622汉字,位于第二平面的扩展区I,码位为U+2EBF0 - U+2EE5D。

另外,第三平面的U+38000至U+3AB9F预计放置篆书,相关提案已经提交。按路线图,该平面还会收录金文、简帛文、陶文、鸟虫书等[6]

版本 编辑

ISO 10646版本 统一码版本 新增 置放平面 字数 累计

字数

1993 1.1 中日韩统一表意文字(U+4E00-U+9FA5) 基本多文种平面 20902 20915
1汉字(U+3007,),于中日韩符号和标点 基本多文种平面 1
在“中日韩兼容表意文字”中但实则独一的汉字(U+FA0E、U+FA0F、U+FA11、U+FA13、U+FA14、U+FA1F、U+FA21、U+FA23、U+FA24、U+FA27、U+FA28、U+FA29[注 1] 基本多文种平面 12
1999 3.0 中日韩统一表意文字扩展区A(U+3400-U+4DB5) 基本多文种平面 6582 27497
2001 3.1 中日韩统一表意文字扩展区B(U+20000-U+2A6D6) 第二辅助平面 42711 70208
2005 4.1 HKSCS-2004未加入ISO 10646的汉字(U+9FA6-U+9FB3,)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB, 基本多文种平面 22 70230
2008 5.1 7日语汉字[8](U+9FBC-U+9FC2,龿),U+4039䀹拆分为U+4039和U+9FC3[9] 基本多文种平面 8 70238
2009 5.2 中日韩统一表意文字扩展区C(U+2A700-U+2B734) 第二辅助平面 4149 74395
2009 2日语用汉字(ARIB #47、#95,U+9FC4,U+9FC5)、1新增汉字(ARIB #93,U+9FC6)、HKSCS-2004推出后新增的5香港汉字[10](U+9FC7-U+9FCB, 基本多文种平面 8
2010 6.0 中日韩统一表意文字扩展区D(U+2B740-U+2B81D) 第二辅助平面 222 74617
2012 6.1 1汉字(U+9FCC 基本多文种平面 1 74618
2015 8.0 中日韩统一表意文字扩展区E(U+2B820-U+2CEA1) 第二辅助平面 5762 80389
“急用汉字”:《通用规范汉字表》余下未收入的3字(U+9FCD-U+9FCF,),1个从U+4CA4()分离出来的字U+9FD0(),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5, 基本多文种平面 9
2017 10.0 中日韩统一表意文字扩展区F(U+2CEB0-U+2EBE0) 第二辅助平面 7473 87883
21汉字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) 基本多文种平面 21
2018 11.0 5汉字(U+9FEB-U+9FEF,鿮鿯),前三字是新命名的化学元素用字,后两字来自日本 基本多文种平面 5 87888
2020 13.0 中日韩统一表意文字扩展区G(U+30000-U+3134A) 第三辅助平面 4939 92857
急用科学与技术用字[11](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10个需分离的汉字[12][13][14](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) 基本多文种平面 23
昆曲工尺谱用字[15](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) 第二辅助平面 7
2021 14.0 3汉字(U+9FFD-U+9FFF,鿿 基本多文种平面 3 92866
2汉字(U+2A6DE-U+2A6DF,𪛞𪛟 第二辅助平面 2
4汉字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸 第二辅助平面 4
2022 15.0 中日韩统一表意文字扩展区H(U+31350–U323AF) 第三辅助平面 4192 97059
1汉字(U+2B739,𫜹 第二辅助平面 1
2023 15.1 中日韩统一表意文字扩展区I(U+2EBF0-U+2EE5F) 第二辅助平面 622 97681

成员机构 编辑

收字来源 编辑

总计 编辑

中日韩统一表意文字来源[注 2]
提交源(类别) 提交量
  中国大陆(国标源) 65941
  香港 17654
  澳门 344
  台湾 58597
  日本 16148
  韩国 20739
  朝鲜 23795
  越南 13278
  英国 2503
大藏经文本数据库委员会 3455
统一码协会 1019
总计 223653

最初期统一汉字 编辑

最初期共20902统一汉字,范围为U+4E00-U+9FA5,收字来源包括以下字集[17]

类别 来源代码 名称 字数
中国大陆
国标源(G)
G0 GB 2312-80 6763
G1 GB 12345-90 2352(含58香港字和92吏读字,不包括和GB 2312重复的字)
G3 GB 7589-87繁体版本 7237
G5 GB 7590-87繁体版本 7039
G7 现代汉语通用字表 42(G0、1、3、5、8未包括的字)
G8 GB 8565.2-89 290(G0、1、3、5未包括的字)
台湾源(T) T1 CNS 11643-1986第一字面 5401+9计量用汉字
T2 CNS 11643-1986第二字面 7650
TE CNS 11643-1986第十四字面 6319+239中文信息交换码特字+10施乐字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6335+非汉字1个(仝)[18]
J1 JIS X 0212-90 5801
韩国源(K) K0 KS C 5601-87 4888(含268重见字[19]
K1 KS C 5657-91 2856
委员会源(U) KS C 5601-1987(当中重复的汉字)
美国国会图书馆之东亚字符编码(East Asia Character Code,简称EACC;标准号ANSI Z39.64-1989)[20]
大五码
中文信息交换码第一字面
GB 12052-89(汉字部分)
JEF(富士通标准)
中国大陆电报码
台湾电报码(CCDC)
施乐中文编码
人名用汉字准用字体表(人名用汉字许容字体表;日本)
IBM选取的日本和韩国表意文字

其中,统一码技术委员会源(U源)指,并非由表意文字小组所递交的参考字集,而是委员会额外递交作参考的字集标准。并且此来源的字集不适用原字集分离原则(见稍后)。

扩展A区 编辑

扩展A区包含有6592汉字,位置在U+3400-U+4DBF。这6千多汉字分别从以下字典或字集获取:

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_KX 康熙字典 5357(独有1892字)
G_HZ 汉语大字典 5888(独有339字)
G3 GB 7589-87繁体版本 2391
G5 GB 7590-87繁体版本 1226
G7 现代汉语通用字表 120
GS 新加坡汉字 226
台湾源(T) T3 CNS 11643-1992第三字面(原为CNS 11643-1986第十四字面)新加入字符 2178
T4 CNS 11643-1992第四字面 2917
T5 CNS 11643-1992第五字面 395
T6 CNS 11643-1992第六字面 197
T7 CNS 11643-1992第七字面 133
TF CNS 11643-1992第十五字面 86
日本源(J) JA 日本信息技术零售商统一当代表意文字(1993) 574
韩国源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994 1834
越南源(V) V0 TCVN 5773:1993 138
V1 TCVN 6056:1995

扩展B区 编辑

扩展B区有42717汉字,位置在U+20000-U+2A6DD。根据IRG N777号文件页面存档备份,存于互联网档案馆),这四万多汉字分别从以下字典或字集中获取:

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_KX 《康熙字典》 18486(包括在补遗篇出现的一字)
G_HZ 《汉语大字典》 28914
G_CY 辞源 66
G_CH 辞海 247
G_HC 汉语大词典 553
G_BK 中国大百科全书 86
G_FZ 北大方正排版系统 65
G_4K 四库全书 522
香港源(H) H 香港增补字符集(HKSCS) 1081
台湾源(T) T4 CNS 11643-1992第四字面 3408
T5 CNS 11643-1992第五字面 8111
T6 CNS 11643-1992第六字面 5934
T7 CNS 11643-1992第七字面 6299
TF CNS 11643-1992第十五字面 6401
日本源(J) J3 JIS X 0213:2000,level 3 25
J3A JIS X 0213:2004,level 3 1
J4 JIS X 0213:2000,level 4 277
韩国源(K) K4 PKS 5700-3:1998 166
朝鲜源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000 5766
越南源(V) V2 VHN 01:1998 2290
V3 VHN 02:1998 425

这些汉字有不少重复,经整理后实际只有42711汉字。另外,U+2F800-U+2FA1D放了来自台湾的542兼容汉字

统一码4.1汉字 编辑

为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,4.1版引进了香港增补字符集的14用字和GB 18030的8用字。该22字编于U+9FA6-U+9FBB。

另外,U+FA70-U+FAD9放了来自北韩的106兼容汉字。

统一码5.1汉字 编辑

2008年4月推出的统一码5.1版收录7个由日本Adobe公司递交的日语汉字(U+9FBC-U+9FC2)[21],和鿃(大字加两个字,就如陕西省的陝字换上目字旁)(U+9FC3)。本来统一码3.0收录了目字旁加夾(大字加两个字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论意义和发音均不同,故魏安(Andrew West)和井作恒(John H. Jenkins)申请追加此字[22]

扩展C区 编辑

于2009年10月发布的统一码5.2涵盖了扩展C区,共收录4149汉字,包括来自中国大陆澳门台湾日本越南等尚未编码的汉字,在U+2A700-U+2B734。这四千多汉字分别从以下字典或字集获取:

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_BK 中国大百科全书 74
G_FZ 北京大学方正排版系统 1
G_HZ 《汉语大字典》 1
G_HC 《汉语大词典》 14
G_GH 古代汉语词典 50
G_GJZ 商务印书馆用字 61
G_XC 现代汉语词典 25
G_CH 《辞海》 264
G_KX 《康熙字典》及补遗 6
G_CYY 中国测绘科学研究院用字 55
G_ZFY 汉语方言大辞典 202
G_ZJW 殷周金文集成引得 366
台湾源(T) TC CNS 11643-1992第12字面 634
TD CNS 11643-1992第13字面 767
TE CNS 11643-1992第14字面 350
澳门源 MAC 澳门资讯系统字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16
日本源(J) JK 日本国字集(Japanese KOKUJI Collection) 367
韩国源(K) K5 韩国表意文字小组汉字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404(当中主要包含古代字例)
朝鲜源(KP) KP1 KPS 10721:2003 5357(独有1892字)
越南源(V) V4 《喃字词典》(Từ điển chữ Nôm)[阮光红(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委员会源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴鲁鲁:夏威夷大学出版社)
耶稣基督后期圣徒教会香港分会用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),剑桥:哈佛大学出版社)
宋本《广韵
中国鸟类系统检索》(郑作新等,北京:科学出版社,2000)
段玉裁说文解字注


扩展D区 编辑

扩展D区包含的都是所谓的“急用汉字”,合共222新汉字,于2010下半年发布的统一码6.0中,编码范围为U+2B740-U+2B81F(实际有字符为U+2B740-U+2B81D)。

扩展D区原本计划放置扩展C区未收录的16000多汉字,但在2007年5月,台湾撤销了6545个第二部分字集内私用汉字,不再使用字,原因是那些人名用字的拥有人已去世或移居外地[23],此后扩展D区缩减到大约10000字左右[24]。由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是“急用汉字”,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但日本撤回其中一字)。现在文字小组把第二部分字集延后到扩展E区。

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_CH 《辞海》 1
G_IDC 公安部身份证系统人名和地名用字 31
G_XC 《现代汉语词典》 4
G_ZH 中华字海 39
台湾源(T) TB CNS 11643-2007第11平面24字(教育部闽客方言用字) 24
日本源(J) JH 通用电子情报交换环境整备计划(汎用電子情報交換環境整備プログラム日本经济产业省提出的人名和地名用字) 108
委员会源(U) Adobe-Japan1-5和Adobe-CNS1-5字体里的异体字 15

扩展E区 编辑

扩展E区亦在2015年6月17日的统一码8.0中发布,放置于编码范围U+2B820-U+2CEAF。

扩展E区本应包含扩展D区未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215汉字[25],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共5762字[26]
这些汉字来源如下:

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_BK 中国大百科全书 15
G_CH 《辞海》 112
G_CY 《辞源》 3
G_CYY 中国测绘科学院用字(地名用字) 98
G_DZ 地质出版社用字 1
G_GH 《古代汉语词典》 176
G_HC 《汉语大词典》 7
G_IDC 公安部身份证系统人名和地名用字 36
G_JZ 商务印书馆用字 147
G_KX 康熙字典 22
G_RM 人民日报用字 3
G_WZ 汉语大词典出版社用字 12
G_XC 《现代汉语词典》 57
G_XH 新华字典 4
G_ZFY 《汉语方言大辞典》 712
G_ZJW 《殷周金文集成引得》 1410
台湾源(T) TC CNS 11643-1992第12平面323字(台湾人名用字) 323
TD CNS 11643-1992第13平面595字(台湾人名用字) 595
TE CNS 11643-1992第14平面339字(台湾人名用字) 339
日本源(J) JK 日本国字集 415
澳门源(M) MAC 澳门资讯系统字集 48
委员会源(U) UTC 从各处收集到的未收录汉字 227
越南源(V) V4 《喃字词典》(Từ điển chữ Nôm)[阮光红(Nguyễn Quang Hồng),2006] 1028
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用汉字 编辑

“急用汉字”是扩展E区整理后期,各地新发现并急于使用,又等不及放入扩展F区的字;和扩展E区一起收入统一码8.0,位置在U+9FCD-U+9FD5;当中中国大陆在此处申请收入三字,连同扩展E区的字,通用规范汉字表的8105字至此全部收入。

扩展F区 编辑

扩展F区在2017年6月20日的统一码10.0发布,编码范围为U+2CEB0-U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。

这些汉字的来源如下:

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_CY 《辞源》 122
G_FC 现代汉语规范词典 27
G_IDC 公安部身份证用字 1
G_LGYJ 壮族嘹歌研究 1
G_OCD 牛津英汉汉英词典 2
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 70
G_XHZ 新华大字典 51
G_Z 古壮字字典 995
G_ZJW 《殷周金文集成引得》 33
G_ZYS 《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》 2
日本源(J) JMJ 日本文字信息基础工程 1645
韩国源(K) KC 韩国历史情报统合系统 1793
澳门源(M) MAC 澳门资讯系统字集 22
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 2884
委员会源(U) UTC 从各处收集到的未收录汉字 1

扩展G区 编辑

于2020年3月10日公布的统一码13.0中在第三辅助平面收录扩展区G的4939汉字,码位为U+30000-U+3134A[27][28]

这些汉字的来源如下(部分字符来自多于一处来源,所以下表总数多于收录总数4939字):

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_HZR 《汉语大字典》(第二版) 878
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 13
G_Z 《古壮字字典》 1191
韩国源(K) KC 韩国历史情报统合系统(한국 역사 정보 통합 시스템) 428
台湾源(T) T13 CNS 11643第19字面(将设立的新平面) 347
TB CNS 11643第11字面 3
TC CNS 11643第12字面 2
TD CNS 11643第13字面 1
英国源(UK) UK IRG N2107R2 1566
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 329
委员会源(U) UTC 从各处收集到的未收录汉字 239

扩展H区 编辑

2022年9月13日公布的统一码15.0在第三辅助平面收录扩展区H的4192汉字,码位为U+31350-U+323AF。

这些汉字的来源如下(部分字符来自多于一处来源,下表总数多于收录总数4192字):

类别 来源代码 名称 字数
中国大陆
国标源(G)
GDM 中华人民共和国公安部治安管理局地名汉字 128
GHC 汉语大词典 27
GKJ 全国科学技术名词审定委员会术语定名用字 30
GLGYJ 壮族嘹歌研究 11
GPGLG 壮族民歌文化丛书•平果嘹歌 14
GXM 217
GZ 古壮字字典 285
GZA-1 生生不息的传承•孝与壮族行孝歌之研究 6
GZA-2 壮族伦理道德长诗传扬歌译注 38
GZA-3 壮族民歌古籍集成•情歌(一)嘹歌 2
GZA-4 壮族民歌古籍集成•情歌(二)欢𭪤 11
GZA-6 中国壮族谚语 59
GZA-7 远古的追忆•壮族创世神话古歌研究 1
韩国源(K) KC 韩国历史情报统合系统 512
朝鲜源(KP) KP1 KPS 10721-2000 1
台湾源(T) T12 TCA-CNS 11643第十八平面 7
T13 TCA-CNS 11643第十九平面 696
T4 CNS 11643-1992第四平面 1
T6 CNS 11643-1992第六平面 1
TB CNS 11643-2007第十一平面 4
TC CNS 11643-2007第十二平面 3
TE CNS 11643-2007第十四平面 2
英国源(UK) UK IRG N2232R 917
越南源(V) V0 TCVN 5773:1193 6
V4 汉喃编码字汇 74
VN 越南横向扩展用字 851
大藏经研究组(SAT) 大藏经文字数据库 241
委员会源(U) UTC 161

扩展I区 编辑

2023年9月12日公布的统一码15.1在第二辅助平面收录扩展区I的622个汉字,码位为U+2EBF0-U+2EE5F。

这些汉字的来源如下:

类别 来源代码 名称 字数
中国大陆
国标源(G)
GIDC23 公安部身份证系统人名和地名用字2023版 622

认同原则与原字集分离原则 编辑

 
“次”字的台湾教育部字形大陆规范汉字韩国的汉字越南的汉字日本的汉字

表意文字认同原则(Han Unification Rule,又称表意文字统合原则)与原字集分离原则(Source Separation Rule,又称来源字集分离原则原规格分离原则),是两项对立原则,它们是统一码整理中日韩统一表意文字的基础。

东亚各国字形多有微妙的差异。如“房”字的第一笔,韩国传统汉字字形、台湾教育部标准字体作撇“”;香港教育参考字形、中国大陆规范作点“”;日本标准作横“”。又如“次”字的左旁,韩国采用传统字形,首笔为横,次笔为挑;台湾教育部作两横;大陆、日本、香港等则作“冫”(俗称两点水)。这种程度的差异,理想是整并为一字为佳。否则,要是凡异体字都收进不同码位里,统一码收录的汉字就会过于臃肿,用户搜索时也会因异体问题而找不到想要的结果。

然而,从之前各种受挫之文字整并计划的经验得知,集成字集与现行通用字集(Big5国标码)等无法一一对应,是推行集成字集的最大阻碍。例如,日本的JIS编码同时收录了“剣”与“劍”字,原本JIS文件里这两字可以并存。如果采用集成字集后,它们会变成同一字,使用的时就会造成困扰。而且,如果将多个不同地区字形合并,会影响阅读者,令用户不习惯并非以往所见字形;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)。

于是,表意文字认同原则与原字集分离原则就应运而生。

表意文字认同原则,统一码“只对(Character)而不对字形(Glyph)”编码,会把同一字的不同字形(即异体字)合并。好像上述“次”字,统一码会整并成一码。又例如不同地区而有不同写法的部首,如“(中国大陆规范、日本新字体)、(港台旧字形、韩国、日本旧字体)、台湾教育部)”、“(中国大陆规范、台湾教育部)、(日本新字体)、(日本旧字体、韩国、港台旧字形)”、“(中国大陆、港台新字形)、(旧字形)”等,会合并编码。这些部首的写法差异就会交由字体处理。比如说,使用依中国大陆汉字标准《印刷通用汉字字形表》的字体(如中易宋体微软雅黑体)便会出现“”;使用台湾教育部标准字体(如微软正黑体新版细明体,但旧版细明体[注 3])就会出现“”等字形,大大解决了因地区而异之部首写法。

至于原字集分离原则是指,上述所列出之各种收字来源,若有任何字集同时收了两种以上文字字形,中日韩统一表意文字也会同时收录这些字。这样一来,现行各种原有字集与统一码汉字可一一对应。比如“房”字,各地字集都没有分别编码,就只编进一码位,部首第一笔的写法交由字体处理。然而,“戶”、“户”、“戸”这三字,在一些地区标准里是分别编码的,统一码则以三码位分别收录它们。上述的“剣”与“劍”也一样安放到不同码位。

基于上述运作,统一码能大幅减少收录汉字字数,同时让地区编码过渡至统一码时,字集里的字符不会流失,但原字集分离原则破坏了统一码“只对字而不对字形”编码之原则,某些汉字获得两位或以上编码,亦遭受不少批评。

后来的一些重复汉字会使用“兼容区”提供暂存编码,可用归一化normalization)步骤移除。一般的汉字输入法,以及多数汉字字体,也不支持兼容区字符。

另外,原字集分离原则只适用于最初Unified Repertoire and Ordering(URO)的20902字,换言之,由“扩展区A”开始就不再适用。原因是个别地区提交了不少仅有十分轻微差异的字样,比如台湾《异体字字典》里的各种异体,要求统一码分别编码。然而,那些字样所建基的地区编码,并非该地区的通用编码,例如是中文标准交换码(台湾实际通行的编码是Big5码)。若统一码全面采纳,将会令统一码对异体字的处理更混乱。

今天,变体序列(Variation Sequence)以及Adobe常用的CID字体等技术已容许在一粒统一码编码收录和调用多于一款汉字字样,原字集分离原则在今天已成为过时技术的副产品。

起源不同原则 编辑

留意的是,可以整并的字只限异体字。如果有些汉字的音、义根本不一样,是两个不同的字,即使它们外形相近,写法差异比另一些整并的字少,但仍不能合并。这规则称为起源不同原则(Noncognate Rule)。

举例说:“土”和“士”虽然形似,却是两个不同的字,不可整并。然而,日本、韩国、大陆、香港等地的“”字,与台湾教育部的“”字,两者顶部分别是“土”和“士”,但它们音义全同,是同一字的异体,就可以整并。

其他起源不同的例子还有“朏”与“胐”(“月偏旁”与“肉偏旁”对立)、“胄”与“冑”(“肉底”与“冃底”对立),“柿”和“杮”(右方“市部件”与“巿部件”对立),“汨”和“汩”(右方“日部件”与“曰部件”对立),“陝”与“陜”(右旁“夾部件”与“㚒部件”对立)等。

然而,汉字中有“同形字”的现象,有两个或以上读音与字义,虽然字源不同,却由同一字形表达出来。比如汉字“芸芸众生”的“芸”,与日本汉字“艺”字的新字体“芸”,是同形字。要是这些同形字之字形确实相同而非相似(“芸”字的草头虽然有三笔的“⺾”、四笔的“⺿”等不同写法,但它们都指同一部件,没有对立),就不会应用起源不同原则。

学界批评 编辑

中文文字学学界对统一码的原字集分离原则有不少批评,尤其是它令同一异体部件时而分离,时而合并,引伸许多日常使用的问题。举例说,“”和“”、“”和“”都在正常区域中作分离编码,获得两码位;“晴”、“靖”、“精”虽也获两码位,但其中一位在兼容区,日常难以应用;“请”、“情”、“蜻”、“静”更只有一码位。或例如合并“”和“”、“”和“”而分离“”和“”作两码位。统一码的做法没有把有相同异体部件的字全都合并,也没有把它们全都分离,结果字形经常不一致,或者用户无法选择他希望使用的字形[29]

其他汉字使用地区也有类似声音。如“”和“”两个偏旁,前者为“戔”的大陆简化字,后者为“戔”的日本新字体,在“”和“”、“”和“”、“”和“”等组合里,就整并起来。可是碰到“”和“”,却不统合,分列U+685F与U+6808两码位。日本学者指这种情况为统一码的矛盾[30]

事实上,统一码本身在“中日韩统一表意文字”不同区域里也用了不一致的并分尺度,因此早期异体字时常获配正常码位,后来常常只有兼容区的暂存编码,再后来则不时直接整并并交由变体选择符处理。若不修正或更改早期编码,类似问题将会持续存在。

统汉字数据库 编辑

统汉字数据库(英语:Unihan)是统一码联盟所维护的数据库文件,为统汉字的各汉字列出说明,内容有:

  • 统一码与各国家、地区标准及各工业标准的对应。
  • 依据重要字典(如康熙字典)的排序索引。
  • 经过编码的异体字
  • 汉字在各种语言中的发音。
  • 英文释义。

数据库以以下方式发布:

批评 编辑

收字过少 编辑

合并异体字虽有助减少收录字数,但研究学术时,如古籍、历史及文字等,部分文献却要将字形不同之字同时并行。已合并的各字在这些文献里变得各有各意思。学者若使用统一码,遇到这种情况,就要用不同电脑字体去显示同一字码,甚至要自行造字,或舍统一码而用其他编码。一来查找、转换电脑字体构成不便,二来有损统一码记录每一字之用意,三来不能以纯文本交换,四来电脑字体或因授权条款之限,难以交换流传。另外,这亦等于不能以统一码准确记录文献,不利数字文本。

不同字形之字合并后,若以字形为本检索,会产生混乱,难以检索,如笔画检字,艸部之“艹头”,中国、日本算作三画,而传统中文为四画,留有“艸”形者则为六画。统一码同一字码源于字形不同就有几种笔画,检索混乱。即使检出字,笔画与显示出来的字形也不相符。因此,批评者认为,统一码合并异体字并不可取。

收字过多 编辑

但是另一方面,统一码收录不少幽灵汉字,其出处难以找到,它们在实际生活也极少机会使用,有些甚至是错讹字,或者仅是某一人的名字用字,那人不见得是名人,甚至可能已去世,却永久成为标准里的字符,占用了一码位。比如台湾律师吕秋𧽚的“𧽚”字本应作“遠”,可是户政人员误听他外公说的台语,把“辵字边”听成“走马边”,外公又不敢更正。当事人长大后,才确认这是错字[33],但这字已永久收进统一码。又如香港增补字符集有许多人名用字,学者都指出乃属讹写,或是来历不明的自创新字[34]。中文信息界李祥在其专栏批评当局“解决不了增补字集中上千错字、白字、生造字的读音问题”,呼吁“不要把香港增补字符集与申请ISO强迫联系在一起”[35]。然而,这些人名讹字亦已经收进统一码,构成了收字过多的争议。

也有批评认为统一码收入大量错讹字及写法高度相似的同一字的不同字形本身就不应该。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每字的各种写法全部编码,会浪费空间。完全无损地研究、记录文献只能通过查看原本或照相复印版来完成,把无损保存转嫁给编码是错误的。

现时统一码把一些异体字分别编码,带来了检索困难。只要写法稍有不同,就无法检出,令使用户检索字词时,必须反复检索其不同写法,造成重复劳动,对研究文献反而是种妨碍。例如统一码将“兒”和“𠒇”字安放在不同的码位里。在检索文献时,检索“兒”字时就找不到“雷庄𠒇”,检索“𠒇”字时就找不到“雷庄兒”,反而造成困扰[36]

准则矛盾 编辑

统一码对同一部件有分有合,原则不一,如“”和“”、“”和“”都分离编码,但“”和“”就整并了;“”和“”、“”和“”皆整并作一码,而“”和“”又分开,既令人混淆,亦令人无所适从。统一码按原字集分离原则收字,只看各地区的既有编码,不理会同一部件的文字学问题。可是用户现实在电脑输入文字时看到的是具体字形而不是编码码位,会让人感到矛盾和困惑。

而且在统一码“中日韩统一表意文字”的不同区域里,官方也用了不一致的并分尺度。早期的异体字时常获分配正常码位;后来常常只有兼容区的暂存编码,使兼容区的字符在输入和显示时经常碰到问题;再后来则不时直接整并并交由变体选择符处理。于是统一码的编码矛盾就更突显。

汉字“〇” 编辑

”是汉字,《集韵》已有此字,则天文字亦有此字。《汉语大字典》《中华字海》《现代汉语词典》都收录了此字。但在统一码放入CJK符号和标点区,等同于数字0,在搜索“〇”时会连带搜索出数字0,使用时颇为不便(搜索汉字“一、二、三”不会搜索出数字1、2、3)。此外,很多程序限定了汉字的范围为统一码各汉字区,区外不视为汉字,“〇”不在汉字区就无法处理,造成不便。

已统一汉字 编辑

ISO 10646原则只对(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。以下使用HTML标示同一编码的字在不同地区的写法(但只是读者的浏览器所渲染的字体,与浏览器的设置与设备安装的字体有关,未必代表该地区的标准写法)。

例子
统一码 中文 日文 韩文 越文
中国大陆 台湾 香港
U+623F
U+6C49 [注 4]
U+6E2F
U+6F22
U+6FB3
U+76F4
U+7A97
U+89D2
U+8AA4
U+8BEF [注 4]
U+8D77
U+9AA8

注:不是所有网页浏览器均可分辨全部HTML语言代码(Language Code)并使用不同字形。如非某一地区的用户看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设置两者以同一种字形显示。

未统一汉字 编辑

有些字只是同一字在不同地区的写法,理应统一,但因为原字集分离原则而只好分开编码。由于KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643有太多字形非常接近,按统一码标准应该统一,但分开编码的字。这些字只有正统的会编入正式字集(包括扩展区),不正统的编入“兼容表意文字区”(Compatibility Ideographs)和位于“第二辅助平面”的“兼容表意文字补充区”(Compatibility Ideographs Supplement)中。

示例:

統一碼 統一碼 統一碼
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 U+7DD1
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

自上表发表后,WG2亦调查过其他汉字[37],认为另一批属于基本多文种平面的汉字,亦可考虑收编到ISO 10646 Annex S3

技术问题 编辑

扩展B区 编辑

扩展B区用了辅助平面来摆放汉字,Microsoft Office 2000或之前的版本等不少文字处理软件都不能支持,即使电脑有扩展B区汉字字体也只会显示两格方格。

另外,扩展B区整理有缺陷,收录了以下本来应与其他汉字统一的5字[38]

而WG2 N1155[37]文件亦列出了152对可考虑统一的汉字。


注释 编辑

  1. ^ 这12字放到兼容区不是因为和其他字同形或为异体,而是因为它们只收录在厂商用字,但未有收录在官方标准(C-、T-、J-、K-Source)。他们有独立的形、音、义,即“独一”(unique)[7]
  2. ^ 部分字符来自多于一个来源,所以下表提交量总数多于收录总数97058字
  3. ^ 旧版“细明体”指Windows XP或以前版本之新细明体细明体,汉字写法大体遵从传承字形
  4. ^ 4.0 4.1 某些码位原来只有个别地区的字,但其他地区为兼容国际标准,逐渐将所有码位的字亦纳入其国家标准。

参考文献 编辑

  1. ^ 無線流動裝置對《香港增補字符集》的支援 (PDF). [2022-12-19]. (原始内容存档 (PDF)于2020-02-02). 
  2. ^ 認識全字庫- 中文碼介紹. [2022-12-19]. (原始内容存档于2022-12-19). 
  3. ^ 中日韓統一漢字簡明速查字典. [2022-12-19]. (原始内容存档于2022-12-22). 
  4. ^ 漢字統合の問題 (2002-04-06). [2022-12-20]. (原始内容存档于2022-12-20). 
  5. ^ Unicode Terminology English - Traditional Chinese. [2022-12-19]. 原始内容存档于2021-08-26. 
  6. ^ Roadmap to the TIP. 统一码联盟. [2018-06-03]. (原始内容存档于2018-06-11). 
  7. ^ Unicode 6.1,第410-411页 [1]页面存档备份,存于互联网档案馆
  8. ^ [2]
  9. ^ [3]
  10. ^ [4]
  11. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-08-19). 
  12. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  13. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  14. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  15. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  16. ^ https://github.com/unicode-org/uk-source-ideographs/页面存档备份,存于互联网档案馆
  17. ^ Unihan_IRGSources.txt (from Unihan.zip). [2023-01-04]. (原始内容存档于2023-01-08). 
  18. ^ 日本的“仝”本来视为同上符号,编排于中日韩符号和标点区的 U+3004 Hanazono fonts. fonts.jp. [2010-04-19]. (原始内容存档于2010-04-12). ;但后来与正字区 U+4EDD 的字认同(统一)了,U+3004 改为日本标准符号
  19. ^ 收入中日韩兼容表意文字
  20. ^ CJK Codes - CCCII and ANSI Z39.64-1989 (EACC). www.ibiblio.org. [2010-04-18]. (原始内容存档于2008-05-16). 
  21. ^ 存档副本 (PDF). [2011-09-09]. (原始内容存档 (PDF)于2012-05-09). 
  22. ^ 存档副本 (PDF). [2011-09-09]. (原始内容存档 (PDF)于2011-09-16). 
  23. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate (PDF). [2010-06-06]. (原始内容存档 (PDF)于2011-07-21). 
  24. ^ IRGN1319A1_MoveToCJK_D.pdf. (原始内容 (PDF)存档于2018-01-15). 
  25. ^ 存档副本 (PDF). [2015年12月12日]. (原始内容 (PDF)存档于2015年1月4日). 
  26. ^ 存档副本 (PDF). [2015-06-19]. (原始内容存档 (PDF)于2015-06-25). 
  27. ^ 存档副本 (PDF). [2020-03-11]. (原始内容存档 (PDF)于2020-03-24). 
  28. ^ 存档副本. [2020-03-11]. (原始内容存档于2020-03-11). 
  29. ^ 刻石录:《Unicode摧残繁体字》页面存档备份,存于互联网档案馆)、刻石录:《不知丹青,枉谈汉字》页面存档备份,存于互联网档案馆
  30. ^ 安岡孝一:《Unicodeの矛盾》. [2019-02-08]. (原始内容存档于2018-08-02). 
  31. ^ 統漢字資料庫. 统一码联盟. [2009-05-04]. (原始内容存档于2009-05-04). 
  32. ^ libUnihan主頁. libUnihan. [2009-05-04]. (原始内容存档于2012-03-21). 
  33. ^ 吕秋远:《吕秋“走袁”》页面存档备份,存于互联网档案馆),刊《立场新闻》。
  34. ^ 《政府通用字库错漏百出 收录市民自创新字影响中文水平》,《太阳报》A6版,1999年10月13日
  35. ^ 李祥:《為了香港成為數碼城市……》. [2019-02-22]. (原始内容存档于2019-05-26). 
  36. ^ 散弹一号:《“𠒇”字系咩嚟?——港姐冠军带出嘅哲学问题》页面存档备份,存于互联网档案馆),刊《辅仁媒体》。
  37. ^ 37.0 37.1 IRGN1155 Possible Duplicates (.zip). [2019-06-22]. 
  38. ^ 存档副本 (PDF). [2008-02-17]. (原始内容存档 (PDF)于2007-06-12). 

外部链接 编辑

统一码
ISO表意文字工作组

参见 编辑