中文标准交换码

中文标准交换码Chinese Standard Interchange Code,简称CSIC),是中华民国国家标准11643号,简称CNS 11643,旧名通用汉字标准交换码Chinese Ideographic Standard Code for Information Interchange,简称CISCII),是中华民国政府中文资讯处理制定的字元编码方案,与许多学术图书馆系统采用的CCCII(中文资讯交换码)同属于中文交换码。CSIC基于ISO 2022定义,和ASCII相容,其EUC版本为EUC-TW

CNS 11643
别名中文标准交换码
语言繁体中文
标准CNS 11643
分类ISO 2022双字节字元集中日韩统一表意文字
编码格式
其他相关编码Big5CCCII

简介 编辑

1980年9月,行政院国家科学委员会集合编码专家、学者在溪头举行会议,建立国家中文资讯标准交换码的编码原则,并报请行政院核定。隔年,行政院函令国科会教育部中央标准局主计处电子处理资料中心组成专案作业小组,推动编码工作。经多次会商,于1983年10月底完成“通用汉字标准交换码”的试用版,试行二年。试用期满后,国科会与主计处电资中心邀集相关单位与业者组成技术小组,检讨试用结果,并根据检讨结果修订编码原则予以重编。1986年8月4日由经济部中央标准局(后改名为标准检验局)正式公布,取名“通用汉字标准交换码”,其内容包括第一字面、第二字面共13,051字[1]

1980年代万“码”奔腾,业界使用各种不同的内码,如大五码王安码IBM 5550码电信码倚天码等;CNS11643与大五码字数相同(大五码有13,053字,但有两个重码)。借由此国家标准交换码的公布与使用,做为各种不同内码间的桥梁,使得不同的内码也可以互相沟通和交换,资料可共享。

为因应各界对扩大中文字元集的需求,中央标准局于1990年委托资讯工业策进会进行扩编。CNS 11643于1992年使用至第七字面,共48,027字,并更名为“中文标准交换码”。2003年,标准检验局委托中文数字化技术推广基金会再次扩编,于2004年推出新版的CNS11643,将编码空间由原先规定的十六字面增加到八十字面,并使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面[2][3]

“CNS11643中文交换码全字库”为1999年时,由主计处电资中心委托中文数字化技术推广基金会建置,用以解决中文码查询、转码与缺字问题。为配合2012年的行政院组织改造,全字库改由研考会办理,自2014年又由继承研考会业务的国家发展委员会管理。2022年8月27日数位发展部成立后,网站管理机构调整为数位部[4]。全字库目前已收纳10万8,800多个文字及符号。若扣除第八和第九字面中的非汉字字元以及第一字面中的符号注音部首汉字构件等字元,以有仓颉码属性的字来计算,大约有9万6,600多个汉字[5][6]

版本 编辑

年份 标准名称 更改
1983 CNS11643-1983 通用汉字标准交换码试用版推出,包括13,053字及441个符号,12月推出的大五码,字集与字序与交换码试用版完全相同,仅字码定义不同。
1986 CNS11643-1986 通用汉字标准交换码正式版发行,包括13,051个字(删除2个重复字,调整20个字顺序)与441个符号,其余均与试用版相同。
1988 CNS11643-1986 增加第十四字面使用者加字区交换码,共增加6,148字。
1989 CNS11643-1986 再增加第十四字面使用者加字区交换码,共增加157字。
1992 CNS11643-1992 扩充第3至7字面,增加部首和数字符号,并更换名称为中文标准交换码,总共包括48,027个字与684个符号。
2002 CNS14649 国际标准ISO 10646/Unicode的中文版“CNS 14649广用多八位元编码字元集”推出,包括中、日、韩、越等20,902个汉字,及全球使用的字元。
2004 CNS11643-2004 编码架构扩充至八十字面。
2008 CNS11643-2008 扩充版发行,增加了户政用字与异体字等。

编码格式 编辑

CNS 11643遵循ISO/IEC 2022所规定的七位元94个图形字元英语Graphic character多字节延伸编码格式[3],以2个字节 (byte)为中文码编码单位,以十六进位制文数字表示,并且避开控制码所在的范围。字面字集之排列,大抵以使用频率为次序,第一字面以常用字为主,第二字面以次常用字为主,第三字面以部分罕用字及较常用异体字为主,其后的字面大多以罕用字、异体字、教育部闽客语用字及户政、役政、地政等机关用字为主。在每一字面中,依先笔画后部首排列顺序来编订字码(每一字面均以文字笔画总数为第一次序,笔划数同则按照部首为次序,部首同再按照笔顺为次序)[7]

CNS 11643采用多字面编码结构,并借助ISO/IEC 2022所规定的逸出顺序(escape sequence)和调用控制符切换字面。因此,同样的正规字元码在CNS 11643的不同字面会代表不同的汉字(例如:第1字面字元码454A为中文字“日”,而第2字面的454A是中文字“碇”)。CNS 11643在新版中规定了延伸字元码,作为任一字元的唯一字元码。CSIC延伸字元码是在正规字元码前,附加该字元所属字面的字面指示码[3]

终结字元 编辑

目前 CNS11643 的1~7 字面之终结字元(最后字元、最终字节) [F] 已获国际标准组织 ISO 正式登记为 47 至 4D ,亦可使用于字集之指定[7][8]。依据ISO 237之规定,各国的国家标准若要成为国际间之中文资讯交换标准,必须向国际标准组织申请注册,并由国际标准组织正式公布,如此全球各国即可依国际标准公布之终结字元进行资料交换。

CNS 11643-1992所包括的七个字面,每个字面均分别向ISO秘书处欧洲计算机制造商协会申请相对应之终结字元。经由资讯工业策进会之协助申请,1993年2月1日CNS 11643第一、第二字面正式获得终结字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式获得终结字元:49 - 4D。

CNS字面 CNS暂用终结字元 ISO正式终结字元
第一字面 30 47
第二字面 31 48
第三字面 32 49
第四字面 33 4A
第五字面 34 4B
第六字面 35 4C
第七字面 36 4D

最新版本 编辑

2021年版CNS 11643字面配置如下:

  • 第一字面:字码区间2121h至4243h为符号区(2009年在4242h新增欧元符号€,4243h新增国字);字码区间4421h至7D4Bh,共编入中文字5,401个;字集来源除教育部常用国字标准字体表”所列4,808字外,并优先收编国中国小教科书常用字587字及异体字6字。另外在2009年,在字码4244h至4254h,增补闽南语用拉丁符号17个[9]
  • 第二字面:字码区间由2121h至7244h,故编入中文字7,650个;字集来源除教育部“次常用国字标准字体表”所列6,330字外,并筛选编入教育部“罕用国字标准字体表”表中使用频率较高之1,320字。
  • 第三字面:字码区间2121h至6246h,共编入中文字6,148个;字集来源为1988年6月行政院主计处电子处理资料中心暂编之使用者加字区第14字面前段;字码区间6448h至672Ah为247个美国香港提报字[10]
  • 第四字面:字码区间2121h至6E5Ch,共编入中文字7,298个;字集来源除1988年6月行政院主计处电子处理资料中心暂编之使用者加字区第14字面后段171字外,并加入户役政及其他使用单位、ISO/IEC 10646-2:2001汉字集、资讯业次常用字7,127字。
  • 第五字面:字码区间2121h至7C51h,目前编入中文字8,603个字;字集来源为未编入前4个字面之教育部罕用字
  • 第六字面:字码区间2121h至647Ah,共编入中文字6,388个;字集来源为未编入前5个字面,且笔画在14画或以下之教育部异体字。
  • 第七字面:字码区间2121h至6655h,共编入中文字6,539个;字集来源为未编入前6个字面,且笔画在15画或以上之教育部异体字。
  • 第八字面:编入ISO/IEC 10646:2003 基本多文种平面中,未收录到原CNS 11643版本中的非汉字。
  • 第九字面:字码区间2121h至3557h,编入ISO/IEC 10646:2003 基本多文种平面中,未收录到原CNS 11643版本中的非汉字;字码区间7455h至7E7Eh,编入户政字。
  • 第十字面:编入ISO/IEC 10646:2003未收录到原CNS 11643版本中的CJK Extension B汉字。
  • 第十一字面:编入未收录到原CNS 11643版本中的CJK Extension B, C, D汉字与地政字、教育部闽南语客家语母语用字。
  • 第十二字面:为户政字,字码区间6249h至627Eh,编入未收录到原CNS 11643版本中的CJK Extension C汉字。
  • 第十三字面:为户政字。
  • 第十四字面:为户政字,字码区间4B6Dh至6D79h,编入未收录到原CNS 11643版本中的CJK基本区、CJK Extension A、CJK Extension C和CJK基本区急用汉字。
  • 第十五字面:字码区间2121h至6D39h,共编入中文字6,831个户政、役政用字;字码区间6D3Ah至7E3Ch,编入未收录到原CNS 11643版本中的CJK Extension C汉字。
  • 第十六字面:私人造字区。
  • 第十七字面:2014年起开始使用,属于内政部户政、地政等字。
  • 第十九字面:2014年起开始使用,属于教育部异体字。
  • 第二十四字面:2021年起开始使用,2121h为医药用字;2122h至2123h为元素、化学、符号用字。[11]
  • 第18、20至23、25至80字面保留供未来使用。

与BIG-5之关系 编辑

五大专案码(BIG-5)为资讯工业策进会与台湾十三家资讯业者签约,共同为“五大软件专案”所设计的中文内码。该内码于1983年12月推出,共收录13,053个汉字(有两字重复编码,故实际上只有13,051个字)、408个符号、33个控制字元[12],其字元的范围与顺序都和1983年10月推出的“通用汉字标准交换码”试用版相同,但码位不同。“通用汉字标准交换码”在1986年推出正式版,删除试用版的2个重复编码字,调整了20个字的顺序。

大五码后来成为繁体中文社群最常用的电脑汉字字集标准,然而所涵盖的字数不敷实际需求,造成厂商各自增删,衍生成多种不同版本。2003年中文数字化技术推广基金会接受经济部标准检验局委托,召集国内业者代表、专家和学者,就BIG-5字元表的原始版本和业界主要版本予以重整,称为Big5-2003[13]。重整后的版本,去除了重复编码,并新增7个中文字,以及370个符号,包括30个数字符号、24个部首、14个罕用符号、268个日本假名,以及34个表格符号[12]。其成果最后收录至CNS 11643的附录之中[14]

参看 编辑

资料来源 编辑

  1. ^ 余保伦. 與文字共舞-中文數位化發展簡介 (PDF). 中华民国统计资讯网. [2022-12-16]. (原始内容存档 (PDF)于2022-12-16). 
  2. ^ 存档副本. [2015-03-28]. (原始内容存档于2015-04-02). 
  3. ^ 3.0 3.1 3.2 曾士熊. 認識中文字元碼:十、中文標準交換碼(CNS 11643). [2022-12-16]. (原始内容存档于2022-05-28). 
  4. ^ 全字库中文标准交换码. 全字庫介紹. [2022-12-16]. (原始内容存档于2022-12-16). 
  5. ^ 全字庫現況. [2022-12-16]. (原始内容存档于2023-01-27). 
  6. ^ 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. (原始内容存档于2022-12-17). 现有字数:现行全字库中,户政与地政部分用字经检查为认同字,因而删除该码位资料,但仍保留该码位的位置,现有字数即去除这些被认同掉的字码,所计算得到的总字数……全字库第八字面和第九字面所储存的是拼音文字,所以没有注音、仓颉等属性资料码位个数 
  7. ^ 7.0 7.1 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14). 
  8. ^ 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. (原始内容存档 (PDF)于2022-12-17). 
  9. ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14). 
  10. ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14). 
  11. ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-10). 
  12. ^ 12.0 12.1 曾士熊. 認識中文字元碼: 九、Big5和Big5E. [2022-12-17]. (原始内容存档于2022-05-28). 
  13. ^ 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14). 
  14. ^ 谢东翰. 預覽「Big5 2003」. [2022-12-17]. (原始内容存档于2022-12-17). 

外部链接 编辑