香港增补字符集

香港增补字符集Hong Kong Supplementary Character Set,简称HKSCS)是香港政府基于繁体中文电脑操作环境中最流行的大五码(Big5)之上扩展的字符集标准,是现时香港的中文信息交换内码标准。

字符集所收罗的字主要包括香港的地名、人名用汉字、粤语汉字异体字,也有小部分简体字;除此之外亦把倚天中文系统收录的日语平假名片假名俄语字母包括在内。此字符集由中文界面咨询委员会管理,仍在不断扩编之中。最新版为HKSCS-2016,收录5033字符。

负责机构 编辑

负责整套字符集管理的为中文界面咨询委员会(Chinese Language Interface Advisory Committee,CLIAC),简称“中咨会”[1]。1999年5月由前资讯科技署成立,现隶属“政府资讯科技总监办公室”。中咨会辖下有两工作小组:“中文电脑用字工作小组”、“中文资讯科技工作小组”。前者审核待增收字符,纳入和编配码位等工作;后者解决技术问题及与国际标准ISO/IEC 10646(简称ISO 10646)接轨等工作。2015年6月1日,两小组合并为“中文界面咨询委员会工作小组”。各组成员来自学术界、语言学界、出版界和信息技术界等。

历史 编辑

1980年代中期,台湾中文电脑通内联码为Big5码。1990年代初期,香港电脑应用逐渐普及,而政府各部门也电脑化。和台湾一样,香港也用繁体中文,故也采用Big5码。可是Big5码本身没有收录香港常用的广东字、一些人名地名用字、一些学科用字,香港用户经常面对缺字问题。于是,香港政府各部门使用Big5的外字区,自行补上这些字,并在政府内部使用。同时,香港业界也指出本地需要一套标准字符集来作电子文件来往,要求政府颁布标准。到1995年,互联网在香港起步,而政府也推出了自己的网站。个人电脑的中文系统虽然都用Big5码,但都没有政府用的外字,更可能用了自己的外字,使在浏览网页时不能显示正确字符。香港政府于是把内部使用有3000多字的Big5外字集标准造字档公开,让各界可以下载安装这批字,使电脑能显示正确的字符,并把这套字命名为《政府通用字库》(Government Common Character Set,简称GCCS)。

到了1999年9月,此字集增加到4000多字,并改为现名。后来的人则将这版本返称为“HKSCS-1999”。自其公布以后,香港增补字符集又经历多次修订,版本历史[2]如下:

版本 收录字符 公布时间 备注
GCCS 3049 1995年
HKSCS-1999 4702 1999年9月
HKSCS-2001 4818 2001年12月
HKSCS-2004 4941 2005年5月
HKSCS-2004+增收字符 4969 2006年11月
HKSCS-2004+增收字符 5000 2008年2月
HKSCS-2008 5009 2009年12月
HKSCS-2016 5033[3] 2017年5月 不再编配Big5码位

除了增补字符,中咨会亦于2002年公布了《香港电脑汉字楷体字形参考指引》和《香港电脑汉字宋体(印刷体)字形参考指引》供业界参考[4],指引内容为以部件为基础的字形参考写法,希望能推动业界开发符合香港小学及初中教育惯常书写方式的汉字字体产品。

2016年,中咨会又公布《香港电脑汉字参考字形[5],于字符层面提供完整的电脑汉字教育参考写法,具体说明适用于香港的字形形状,比较了香港参考字形与台湾业界习惯和台湾教育部写法的异同;并涵盖HKSCS-2016和Big5码字符集所有汉字,补充2002年两份指引的不足之处。文件的研订目标是希望能清晰显示ISO/IEC 10646国际编码标准中H-列的字形,方便字体生产商开发有关产品。

中谘会之后在2018、2019和2021年继续修订《香港增补字符集》,分别增收三汉字(U+5C83 U+2D25D 𭉝 U+2BB37 𫬷 )、修改U+22ACF 𢫏 的字形、调整U+270F0 𧃰 的码位。[6]

字符分类 编辑

HKSCS-2004版本共4500汉字字符,其中3353字可在《汉语大字典》等大型字典查到,包括简化字、异体字、日语汉字等。其余在各大中文字典中查不到的字中,有粤语方言字(有些可在方言字典及学术著作中查到)、人名、公司名、地方名、变形部首、附形、讹字。有些字来自入境事务处、公司注册处、税务局、地政总署。

各类符号共441个,有汉字笔形、汉语拼音字母、国际音标符号、汉字符件、画表符号、日本平假名、片假名等。

香港增补字符集在此版本起才有画数、部首、粤音等资料给用户参考,还说明方便检索,而非作为规范标准(汉字的部首在不同的字典中,归部也不尽相同)。

和GCCS的关系 编辑

  • 注:各操作系统使用的字体不尽相同,下表列出的字符未必符合期望的结果。
已经与Unicode其他字符统一的字符
Unicode(PUA) 字符 Unicode(PUA) 字符 Unicode(PUA) 字符
E01F E026 E05B
E063 E073   E0A5
E0F3   E12E   E134
E149 E166   E191
E1BA E1C9   E22C  
E22D   E230 E266 煮󠄁
E286 猪󠄀 E2A3   E2BC
E2EF E33A E340
E34F E35A E363
E37C 者󠄁 E37F   E3C5
E3D7 E3DC E417  
E418 E44A E478 都󠄁
E485 E4C5   E4DA 響󠄂
E545   E589 E5D2
E5D3 E5D4 E5D5
E5EB   E5F4 E6C6
E727   E7D3 E7FD  
E884   E893 EB40
EB42 EB45 EB6E
EB86 EB94 EB9E  
EBA9 EBBA EBC9
EBCF EBD2 EBDE  
EC01   EC02 𥞊 EC15
EC5B EC5E ECA6
ED28 恢󠄀 ED6E   ED7C  
ED9E   EDA4 EDE7
EDF4   EE3E EE52
EE8E EE98 EE9D  
从大型字典中不能验证而且无法与Unicode对应的字符
Unicode(PUA) 字符 Unicode(PUA) 字符 Unicode(PUA) 字符
ED2B   ED43   ED73  
ED8C   EDC9   EDCD 𫑳
EDDC   EDE4   EDF6  
EE02   EE06   EE0B  
EE2F   EE32 𪹧 EE35  
EE3D 𭼼 EE4D   EE5E  
EE66   EE68   EE8C  
EE9A  

如上表,第一部分有部分字符是重量单位,例如兙、兛、兝、兞等,在Big5中是以符号形式出现,意即该等字符在Big5中并非视为汉字,所以香港政府另行在Big5造字区安放这些字,造成重复;另外,有些字符在收录时只与Big5正确字存在细微字形差异,例如“𪨶”上方一字从“山”而另一字从“屮”,“静”左下方一字从“月”而另一字从“円”。研究这些字符可以从旧造字档着手,因为现时在Windows通行的“细明体_HKSCS”字体已经标准化

编码 编辑

和Big5的关系 编辑

香港增补字符集当初因为是补充Big5的收字不足,使用其外字区而发展的,所以受制于Big5的编码架构,外字总数最多只能到6217(每区块157字,有39区块半)。除去已用码位,剩下千余码位,其中有部分会保留给用户造字。

早期的倚天中文系统国乔中文系统等对造字缺乏管理,而又没有文字专家的审定,因此当时造字很是混乱,有些甚至可能只是临时使用的“错字”(寻遍各大字典、专书也查不到的字,也作幽灵汉字);制作这些中文系统的厂商又对字形、字体缺乏认识,有些字会因为字体不同而字形稍有差别,分别编进两码位。又有同一字有系统区及造字区两码位,有些联绵词只收其一不收其二;这问题带到了政府通用字库和香港增补字符集中,字集要反向兼容而跳过了一些码位。

Big5原来的编码只有汉字、标点、注音符号等字符及少数图形,后来经过台湾厂商增收,多了7个“倚天字”(碁、銹、裏、墻、恒、粧、嫺)及日文假名,最后这批字符又收入香港增补字符集。

香港增补字符集所用的Big5的外字区分几区段:

  • “造字区一”(FA40—FEFE):早期的GCCS字符集已填满这段。
  • “造字区二”(C6A1—C8FE):倚天用了这段来放日文假名等符号。这些符号收纳在HKSCS-1999年版。
  • “造字区三”(8140—A0FE):香港增补字符集把这段开头的(8140—84FE)保留给用户,新增的字符只用其余的码位。
  • “厂商造字区”(F9D6—F9FE):倚天用了这段来放“倚天字”及制表符号。这些符号亦在HKSCS-1999年版本将之全部收纳。

可是一般提及HKSCS的文件,包括来自香港政府的,都没有注明HKSCS以外的一般繁体字编码(即是Big5本身)使用哪版。Big5在2003年前就只有一版,不会混淆,但HKSCS-2004的文件仍没有指定Big5部分是2003年之后还是之前的版本,虽然到目前为止并没有任何系统使用Big5-2003。

和ISO 10646/Unicode的关系 编辑

1995年的政府通用字库本来是内部使用的,到1999年才成立中咨会专门去负责增收及审核字符的工作,并与ISO 10646接轨。中咨会的成员会把香港增补字符集交到ISO的表意文字小组中,尽量让其所有字符纳入国际标准。表意文字小组会定期开会审议汉字的收纳等工作,成员是来自世界各地的专家。

香港字在Big5-HKSCS内的码位,都能对应到ISO 10646中日韩汉字区段中的码位,或Private Use Area(私人使用区,简称PUA)内。随着版本的更新,造字区的字会逐渐搬到中日韩汉字扩展区内。将所有已纳入的HKSCS字符搬到正式中日韩汉字扩展区段(非PUA区段)的工作在2005年完成,对应于ISO 10646:2003的第一修订版,相应的Unicode版本为Unicode 4.1。

不过,因为目前流传极多使用旧版HKSCS的系统产生出来的文件,为了方便过渡,在HKSCS的定义中,在Unicode PUA所分配的字符位置会予以保留,不会给新加入而且未分配正式Unicode位置的字符使用。

字体提供 编辑

最初的香港字是由早期的台湾厂商(像倚天等)和用户自行造字所得。大部分都不合标准和没有流通,没有沿用至今。后来,TrueType字体盛行,中文字的厂商都开始加入香港字,但因为是商业性质,没有足够的流通量。另外,在支持超大字库的字体方面,因为HKSCS某些字和大陆GBK码有冲突,厂商经常会因市场关系舍弃一些香港字。

香港政府的“数字21”网页(详见下面的外部链接)有提供由华康授权的香港字参考宋体,但一来是使用条款苛刻而不可能广泛使用,二来是没有推广,致使政府内部人员也不知道这套字体的存在。

目前由商业主导的情况渐有改变,近况如下:

开放源码字体 编辑

文鼎科技在1999年发布了四套字体(繁简明体和楷书)给自由软件界,但当中没有香港字。后来高盛华(Arne Götje)发起计划将繁简体合并,称之为CJK Unifonts。当中,Akar、Zunix等人在2004年末另外发起开源香港常用中文字体计划,将香港字加入CJKUnifonts之内,到了2005年9月1日完成将HKSCS 2004加入CJKUnifonts的工作。目前UMingUKai已收录在各大Linux发行版

商业字体 编辑

最早一套宣称支持HKSCS的字体是华康“香港标准楷书”[7]及“香港标准宋体”[8],而最早一套宣称支持HKSCS 2004的字体是华康“金蝶2006 H.K. Edition”[9],在2005年11月14日推出。后来文鼎、蒙纳等字体公司亦陆续推出相应的字体产品。

增收字符 编辑

“中咨会”会让各界申请新字符,不过要经过审核批准,才会给字符编配码位。而用户自造的字,可视乎需要加入,特别是一些人名地名等会经过互联网发送的字。另外,这些增收的字符不一定能够收录在Unicode之内,例如一些能够表示成Unicode复合字符的字或符号,便不会收录。

另外因为现在余下的Big5兼容码位不多(2005年9月为止只剩487码位未用),中文界面咨询委员会已经在2008年3月31日停止为字符提供Big5码位[10],并在之前尽量协助业界和一般用户过渡至Unicode。

操作系统的支持 编辑

香港增补字符集开始时只有Windows版本的Big5码,后来与ISO 10646接轨后,才开始在LinuxMac OS等系统中使用。理论上因为ISO 10646已收纳香港增补字符集,任何支持ISO 10646的系统都可使用香港字。但实际上,许多旧的程序内部是使用UCS-2(每字占2字节)存储字符串,无法表示许多放在基本多文种平面(简称BMP)以外的所有香港字。只有使用UCS-4(每字占4位组)作为内部存储字符串编码的程序,才能够完整地显示所有香港字。

Windows 编辑

显示和处理字符 编辑

根据Microsoft的网页,在Windows Vista或以后的版本将不再支持HKSCS-2004的Big5扩展编码(通常称为Big5HKSCS),而只使用Unicode中的香港字支持。

至于HKSCS-2001,可以在微软的网页(请看下面的外部链接)中下载香港增补字符集;它支持Windows 98、NT、2000和XP。可是安装该包和其他软件(例如Office)需要有一定的次序,而且它和别的Big5外字集并不兼容,必须先浏览有关文件方可安装。

输入字符 编辑

Windows XP中,内置的仓颉输入法可输入已包括在Unicode 1.1版本内的香港字;新仓颉输入法则不能。

Linux 编辑

显示和处理字符 编辑

自从glibc页面存档备份,存于互联网档案馆)在2000年加入香港字(同时包括Big5hkscs和unicode码两者的转换表)的支持后,就几乎没有再更新过,其中的Big5部分更是来自年代久远的Big5/Unicode转换码表,当中有不少错误之处,令一些文件和网页无论使用Big5还是Big5 HKSCS转换至Unicode都会出现错误。暂时未有任何更新。相反地,如果单是使用Unicode作为系统编码,处理香港字则没有问题。

桌面环境方面,KDE 3.x桌面因为使用QT 3.x,而QT 3.x内部使用UCS-2存储字符,因此KDE 3.x只能有限度地显示少部分香港字。这情况期望在KDE 4.0解决。

GNOME没有这方面的问题,只要是使用Unicode,在2004至2005年间就已经能够显示所有BMP以外的字符。

输入字符 编辑

截至2007年3月,支持香港字集的开源输入法有:SCIMOXIM;不支持的有:IIIMFgcin。但有些输入法并非输出Unicode中真正编配给香港字的码位,而是一些造字区的码位,例如SCIM中的仓颉五代输入法便是这样。

Mac OS 编辑

显示和处理字符 编辑

Mac OS X 10.0至10.2版本支持的版本为HKSCS-1999。10.3、10.4、10.5及最新之10.6支持HKSCS-2001;10.4有部分HKSCS-2004新增字符,但编码对应Unicode私人使用区;10.5及10.6有HKSCS-2004全部新增字符,但只有Unicode(4.1版本)编码。

输入字符 编辑

使用Mac OS X内置的中文输入法即可,不属Big5字集的字在选字区旁会有一绿色感叹号[!]提示。

使用地区 编辑

除了香港使用香港字以外,现在台湾的中文电脑也有少部分使用它的(如处理常见但Big5未有收录的人名用字,如“堃”和“喆”字;此外,台湾也有自己的一两套外字集,如中国海字集)。而同样使用粤语和繁体字的澳门也有使用这套字集,也许还有其他华语地区会使用。

澳门政府网站、澳广视和很多澳门报纸网站已改用Unicode(UTF-8)编码,因现在大部分系统已支持Unicode和内置相应字体,毋需额外安装包即可显示澳门特有地名用字,如氹仔

派生 编辑

日和字集 编辑

“日和字集”乃香港增补字符集采用Big5码时期,香港人内木一郎和阿烈开发的True Type Eudc造字档,以兼容香港增补字符集为卖点,增补字集仍没涵盖的日语假名日本汉字日本国字,有细明体、标楷体、中黑体等配合Windows 95、98、NT等操作系统字体的字款,并附有仓颉、速成等输入法作辅助,以及把字集文档转换至日语编码的转码器工具。

香港增补字符集完全过渡至Unicode编码后,日和字集增补的字符基本上都已有Unicode编码,操作系统字体能直接显示,因此日和字集停止更新。

开源香港常用中文字体计划 编辑

社会上有志愿人士开始了开源香港常用中文字体计划。以CJK UnifontsUMingUKai字体为基础,增补香港增补字符集的所有字符。

评价 编辑

香港增补字符集一直需要和Big5码兼容,可说是一套先天不足的字集。它要处理前期许多遗留下来的问题,也有外字字数上限,致使香港特区政府打算在2007年至2008年放弃它的Big5码。如果系统使用Unicode编码,用它反而较好。当今的趋势是使用Unicode,它有足够的字符,几乎可以满足文字学家字典专家的用字要求。但因为兼容性的关系,要将整套系统由使用Big5码转换至Unicode颇费时,因此还会有人暂时不愿意转换。

增收原则更改 编辑

《香港增补字符集》自2008年3月31日起更改字符增收原则,新增的字符只会编配ISO 10646国际编码标准内码,不再编配大五码内码。政府信息技术总监办公室表示,全面采用ISO 10646国际编码,可统一编码标准,解决兼容问题。ISO 10646国际编码标准涵盖各种主要语文的字符,包括繁体及简体中文字,提供统一的字符编码标准,方便世界各地的电脑用户。《香港增补字符集》3月31日起更改字符增收原则,在此之前获编配的字符,则不受影响。政府1999年公布《香港增补字符集》,由中文界面咨询委员会负责管理,收纳适用于香港的中文电脑用字,以解决电子通信出现乱码或字符不能正确地显示等问题。

参看 编辑

注释 编辑

  1. ^ 「中文界面諮詢委員會」網站. [2017-07-17]. (原始内容存档于2017-03-07). 
  2. ^ 有關《香港增補字符集》的問題及解答. [2017-07-17]. (原始内容存档于2017-06-28). 
  3. ^ 存档副本. [2019-07-09]. (原始内容存档于2019-07-09). 
  4. ^ 一套以部件為基礎的字形參考指引. [2017-07-17]. (原始内容存档于2017-06-07). 
  5. ^ 香港電腦漢字參考字形. [2017-07-17]. (原始内容存档于2020-03-28). 
  6. ^ 共通中文界面網站. www.ccli.gov.hk. [2022-04-15]. (原始内容存档于2022-06-20). 
  7. ^ 香港標準楷書全通集. www.rnb.com.hk. [2010-01-07]. (原始内容存档于2009-03-12). 
  8. ^ 華康標準宋體. www.rnb.com.hk. [2010-01-07]. (原始内容存档于2009-07-22). 
  9. ^ [1]页面存档备份,存于互联网档案馆
  10. ^ [2]

外部链接 编辑

字符和编码 编辑

编码表 编辑

字体 编辑

参考书籍、文章 编辑