中日韩统一表意文字扩展区B
中日韩统一表意文字扩展区B(英语:CJK Unified Ideographs Extension B)是一个Unicode区段,在Unicode版本3.1被引入。
中日韩统一表意文字扩展区B CJK Unified Ideographs Extension B | |
---|---|
范围 | U+20000..U+2A6DF (42,720个码位) |
平面 | 表意文字补充平面(SIP) |
文字 | 汉字 |
已分配 | 42,720个码位 |
未分配 | 0个保留码位 |
统一码版本历史 | |
3.1 | 42,711 (+42,711) |
13.0 | 42,718 (+7) |
14.0 | 42,720 (+2) |
注释:[1][2] |
扩展B区包含有42,711个新的汉字,位置在 U+20000–U+2A6DD。根据IRG N777号文件(页面存档备份,存于互联网档案馆),这四万多个汉字分别从以下字典或字集中获取:
- 《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现的汉字);
- 《汉语大字典》中出现的28,914个未收录汉字;
- 《辞源》中出现的66个未收录汉字;
- 《辞海》中出现的247个未收录汉字;
- 《汉语大词典》中出现的553个未收录汉字;
- 《中国大百科全书》中出现的86个未收录汉字;
- 北大方正排版系统中出现的65个未收录汉字;
- 《四库全书》中出现的522个未收录汉字;
- 香港增补字符集中出现的1,081个未收录汉字;
- 日本工业标准的JIS X 0213第3水准及第4水准的302个未收录汉字;
- 韩国 PKS 5700-3:1998 中出现的166个未收录汉字;
- 朝鲜 KPS 9566-97 和 KPS 10721-2000 国家标准所收录的5,642个汉字;
- 台湾 CNS 11643 的第4至7和15平面所收录的30,177个汉字;
- 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个喃字;
这些汉字中重复的汉字有不少,所以经过整理之后,实际总数只有42,711个汉字。
另外,在 U+2F800–U+2FA1D 的位置,放了542个来自台湾的兼容汉字。
因扩展B区在整理上有缺陷,收录了以下8个本来应该与其他汉字统一的字:[3][4]
- U+20457 𠑗 = U+34A8 㒨
- U+2420E 𤈎 = U+3DB7 㶷
- U+27144 𧅄 = U+8641 虁
- U+27EAF 𧺯 = U+FA23 﨣
- U+23515 𣔕 = U+204F2 𠓲
- U+249E9 𤧩 = U+249BC 𤦼
- U+2A415 𪐕 = U+24BD2 𤯒
- U+26866 𦡦 = U+26842 𦡂
而在 WG2 N1155文件中,亦列出了152对可考虑统一的汉字。
字符列表
编辑以下列表列出了在中日韩统一表意文字扩展区B中的所有文字:
为避免页面过大,下列提供分段的中日韩统一表意文字扩展区B列表:
参见
编辑参考资料
编辑引用
编辑- ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始内容存档于2017-09-25).
- ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始内容存档于2016-06-29).
- ^ 存档副本 (PDF). [2011-02-01]. (原始内容存档 (PDF)于2007-06-12).
- ^ Cook, Richard. Defect Report on Duplicate Encoded CJK Forms (PDF). ISO/IEC JTC1/SC2/WG2. 6 October 2003 [2012-03-28]. (原始内容存档 (PDF)于2007-06-12).
来源
编辑- unicode定义的PDF文件(英语)