香港增补字符集
此条目需要编修,以确保现代标准汉语白话文使用恰当。 (2017年11月3日) |
香港增补字符集(Hong Kong Supplementary Character Set,简称HKSCS)是香港政府基于繁体中文电脑操作环境中最流行的大五码(Big5)之上扩展的字符集标准,是现时香港的中文信息交换内码标准。
字符集所收罗的字主要包括香港的地名、人名用汉字、粤语汉字、日本汉字及异体字,也有小部分简体字;除此之外亦把倚天中文系统收录的日语平假名、片假名及俄语字母包括在内。此字符集由中文界面咨询委员会管理,仍在不断扩编之中。最新版为HKSCS-2016,收录5033字符。
负责机构
编辑负责整套字符集管理的为中文界面咨询委员会(Chinese Language Interface Advisory Committee,CLIAC),简称“中咨会”[1]。1999年5月由前资讯科技署成立,现隶属“政府资讯科技总监办公室”。中咨会辖下有两工作小组:“中文电脑用字工作小组”、“中文资讯科技工作小组”。前者审核待增收字符,纳入和编配码位等工作;后者解决技术问题及与国际标准ISO/IEC 10646(简称ISO 10646)接轨等工作。2015年6月1日,两小组合并为“中文界面咨询委员会工作小组”。各组成员来自学术界、语言学界、出版界和信息技术界等。
历史
编辑1980年代中期,台湾的中文电脑通内联码为Big5码。1990年代初期,香港电脑应用逐渐普及,而政府各部门也电脑化。和台湾一样,香港也用繁体中文,故也采用Big5码。可是Big5码本身没有收录香港常用的广东字、一些人名地名用字、一些学科用字,香港用户经常面对缺字问题。于是,香港政府各部门使用Big5的外字区,自行补上这些字,并在政府内部使用。同时,香港业界也指出本地需要一套标准字符集来作电子文件来往,要求政府颁布标准。到1995年,互联网在香港起步,而政府也推出了自己的网站。个人电脑的中文系统虽然都用Big5码,但都没有政府用的外字,更可能用了自己的外字,使在浏览网页时不能显示正确字符。香港政府于是把内部使用有3000多字的Big5外字集标准造字档公开,让各界可以下载安装这批字,使电脑能显示正确的字符,并把这套字命名为《政府通用字库》(Government Common Character Set,简称GCCS)。
到了1999年9月,此字集增加到4000多字,并改为现名。后来的人则将这版本返称为“HKSCS-1999”。自其公布以后,香港增补字符集又经历多次修订,版本历史如下:[2]
版本 | 收录字符 | 公布时间 | 备注 |
---|---|---|---|
GCCS | 3049 | 1995年 | |
HKSCS-1999 | 4702 | 1999年9月 | |
HKSCS-2001 | 4818 | 2001年12月 | |
HKSCS-2004 | 4941 | 2005年5月 | |
HKSCS-2004+增收字符 | 4969 | 2006年11月 | |
HKSCS-2004+增收字符 | 5000 | 2008年2月 | |
HKSCS-2008 | 5009 | 2009年12月 | |
HKSCS-2016 | 5033[3] | 2017年5月 | 不再编配Big5码位 |
除了增补字符,中咨会亦于2002年公布了《香港电脑汉字楷体字形参考指引》和《香港电脑汉字宋体(印刷体)字形参考指引》供业界参考[4],指引内容为以部件为基础的字形参考写法,希望能推动业界开发符合香港小学及初中教育惯常书写方式的汉字字体产品。
2016年,中咨会又公布《香港电脑汉字参考字形》[5],于字符层面提供完整的电脑汉字教育参考写法,具体说明适用于香港的字形形状,比较了香港参考字形与台湾业界习惯和台湾教育部写法的异同;并涵盖HKSCS-2016和Big5码字符集所有汉字,补充2002年两份指引的不足之处。文件的研订目标是希望能清晰显示ISO/IEC 10646国际编码标准中H-列的字形,方便字体生产商开发有关产品。
中谘会之后在2018、2019和2021年继续修订《香港增补字符集》,分别增收三汉字(U+5C83 岃 、U+2D25D 𭉝 、U+2BB37 𫬷 )、修改U+22ACF 𢫏 的字形、调整U+270F0 𧃰 的码位。[6]
字符分类
编辑HKSCS-2004版本共4500汉字字符,其中3353字可在《汉语大字典》等大型字典查到,包括简化字、异体字、日语汉字等。其余在各大中文字典中查不到的字中,有粤语方言字(有些可在方言字典及学术著作中查到)、人名、公司名、地方名、变形部首、附形、讹字。有些字来自入境事务处、公司注册处、税务局、地政总署。
各类符号共441个,有汉字笔形、汉语拼音字母、国际音标符号、汉字符件、画表符号、日本平假名、片假名等。
香港增补字符集在此版本起才有画数、部首、粤音等资料给用户参考,还说明方便检索,而非作为规范标准(汉字的部首在不同的字典中,归部也不尽相同)。
和GCCS的关系
编辑- 注:各操作系统使用的字体不尽相同,下表列出的字符未必符合期望的结果。
Unicode(PUA) | 字符 | Unicode(PUA) | 字符 | Unicode(PUA) | 字符 |
---|---|---|---|---|---|
U+ED2B | U+ED43 | U+ED73 | |||
U+ED8C | U+EDC9 | U+EDCD | 𫑳 | ||
U+EDDC | U+EDE4 | U+EDF6 | |||
U+EE02 | U+EE06 | U+EE0B | |||
U+EE2F | U+EE32 | 𪹧 | U+EE35 | ||
U+EE3D | 𭼼 | U+EE4D | U+EE5E | ||
U+EE66 | U+EE68 | U+EE8C | |||
U+EE9A |
如上表,第一部分有部分字符是重量单位,例如兙、兛、兝、兞等,在Big5中是以符号形式出现,意即该等字符在Big5中并非视为汉字,所以香港政府另行在Big5造字区安放这些字,造成重复;另外,有些字符在收录时只与Big5正确字存在细微字形差异,例如“𪨶”上方一字从“山”而另一字从“屮”,“静”左下方一字从“月”而另一字从“円”。研究这些字符可以从旧造字档着手,因为现时在Windows通行的“细明体_HKSCS”字体已经标准化。
编码
编辑和Big5的关系
编辑香港增补字符集当初因为是补充Big5的收字不足,使用其外字区而发展的,所以受制于Big5的编码架构,外字总数最多只能到6217(每区块157字,有39区块半)。除去已用码位,剩下千余码位,其中有部分会保留给用户造字。
早期的倚天中文系统、国乔中文系统等对造字缺乏管理,而又没有文字专家的审定,因此当时造字很是混乱,有些甚至可能只是临时使用的“错字”(寻遍各大字典、专书也查不到的字,也作幽灵汉字);制作这些中文系统的厂商又对字形、字体缺乏认识,有些字会因为字体不同而字形稍有差别,分别编进两码位。又有同一字有系统区及造字区两码位,有些联绵词只收其一不收其二;这问题带到了政府通用字库和香港增补字符集中,字集要反向兼容而跳过了一些码位。
Big5原来的编码只有汉字、标点、注音符号等字符及少数图形,后来经过台湾厂商增收,多了7个“倚天字”(碁、銹、裏、墻、恒、粧、嫺)及日文假名,最后这批字符又收入香港增补字符集。
香港增补字符集所用的Big5的外字区分几区段:
- “造字区一”(FA40—FEFE):早期的GCCS字符集已填满这段。
- “造字区二”(C6A1—C8FE):倚天用了这段来放日文假名等符号。这些符号收纳在HKSCS-1999年版。
- “造字区三”(8140—A0FE):香港增补字符集把这段开头的(8140—84FE)保留给用户,新增的字符只用其余的码位。
- “厂商造字区”(F9D6—F9FE):倚天用了这段来放“倚天字”及制表符号。这些符号亦在HKSCS-1999年版本将之全部收纳。
可是一般提及HKSCS的文件,包括来自香港政府的,都没有注明HKSCS以外的一般繁体字编码(即是Big5本身)使用哪版。Big5在2003年前就只有一版,不会混淆,但HKSCS-2004的文件仍没有指定Big5部分是2003年之后还是之前的版本,虽然到目前为止并没有任何系统使用Big5-2003。
和ISO 10646/Unicode的关系
编辑1995年的政府通用字库本来是内部使用的,到1999年才成立中咨会专门去负责增收及审核字符的工作,并与ISO 10646接轨。中咨会的成员会把香港增补字符集交到ISO的表意文字小组中,尽量让其所有字符纳入国际标准。表意文字小组会定期开会审议汉字的收纳等工作,成员是来自世界各地的专家。
香港字在Big5-HKSCS内的码位,都能对应到ISO 10646中日韩汉字区段中的码位,或Private Use Area(私人使用区,简称PUA)内。随着版本的更新,造字区的字会逐渐搬到中日韩汉字扩展区内。将所有已纳入的HKSCS字符搬到正式中日韩汉字扩展区段(非PUA区段)的工作在2005年完成,对应于ISO 10646:2003的第一修订版,相应的Unicode版本为Unicode 4.1。
不过,因为目前流传极多使用旧版HKSCS的系统产生出来的文件,为了方便过渡,在HKSCS的定义中,在Unicode PUA所分配的字符位置会予以保留,不会给新加入而且未分配正式Unicode位置的字符使用。
字体提供
编辑最初的香港字是由早期的台湾厂商(像倚天等)和用户自行造字所得。大部分都不合标准和没有流通,没有沿用至今。后来,TrueType字体盛行,中文字的厂商都开始加入香港字,但因为是商业性质,没有足够的流通量。另外,在支持超大字库的字体方面,因为HKSCS某些字和大陆GBK码有冲突,厂商经常会因市场关系舍弃一些香港字。
香港政府的“数字21”网页(详见下面的外部链接)有提供由华康授权的香港字参考宋体,但一来是使用条款苛刻而不可能广泛使用,二来是没有推广,致使政府内部人员也不知道这套字体的存在。
目前由商业主导的情况渐有改变,近况如下:
开放源码字体
编辑文鼎科技在1999年发布了四套字体(繁简明体和楷书)给自由软件界,但当中没有香港字。后来高盛华(Arne Götje)发起计划将繁简体合并,称之为CJK Unifonts。当中,Akar、Zunix等人在2004年末另外发起开源香港常用中文字体计划,将香港字加入CJKUnifonts之内,到了2005年9月1日完成将HKSCS 2004加入CJKUnifonts的工作。目前UMing及UKai已收录在各大Linux发行版。
商业字体
编辑最早一套宣称支持HKSCS的字体是华康“香港标准楷书”[7]及“香港标准宋体”[8],而最早一套宣称支持HKSCS 2004的字体是华康“金蝶2006 H.K. Edition”[9],在2005年11月14日推出。后来文鼎、蒙纳等字体公司亦陆续推出相应的字体产品。
增收字符
编辑“中咨会”会让各界申请新字符,不过要经过审核批准,才会给字符编配码位。而用户自造的字,可视乎需要加入,特别是一些人名地名等会经过互联网发送的字。另外,这些增收的字符不一定能够收录在Unicode之内,例如一些能够表示成Unicode复合字符的字或符号,便不会收录。
另外因为现在余下的Big5兼容码位不多(2005年9月为止只剩487码位未用),中文界面咨询委员会已经在2008年3月31日停止为字符提供Big5码位[10],并在之前尽量协助业界和一般用户过渡至Unicode。
操作系统的支持
编辑香港增补字符集开始时只有Windows版本的Big5码,后来与ISO 10646接轨后,才开始在Linux、Mac OS等系统中使用。理论上因为ISO 10646已收纳香港增补字符集,任何支持ISO 10646的系统都可使用香港字。但实际上,许多旧的程序内部是使用UCS-2(每字占2字节)存储字符串,无法表示许多放在基本多文种平面(简称BMP)以外的所有香港字。只有使用UCS-4(每字占4位组)作为内部存储字符串编码的程序,才能够完整地显示所有香港字。
Windows
编辑显示和处理字符
编辑根据Microsoft的网页,在Windows Vista或以后的版本将不再支持HKSCS-2004的Big5扩展编码(通常称为Big5HKSCS),而只使用Unicode中的香港字支持。
至于HKSCS-2001,可以在微软的网页(请看下面的外部链接)中下载香港增补字符集;它支持Windows 98、NT、2000和XP。可是安装该包和其他软件(例如Office)需要有一定的次序,而且它和别的Big5外字集并不兼容,必须先浏览有关文件方可安装。
输入字符
编辑在Windows XP中,内置的仓颉输入法可输入已包括在Unicode 1.1版本内的香港字;新仓颉输入法则不能。
Linux
编辑显示和处理字符
编辑自从glibc (页面存档备份,存于互联网档案馆)在2000年加入香港字(同时包括Big5hkscs和unicode码两者的转换表)的支持后,就几乎没有再更新过,其中的Big5部分更是来自年代久远的Big5/Unicode转换码表,当中有不少错误之处,令一些文件和网页无论使用Big5还是Big5 HKSCS转换至Unicode都会出现错误。暂时未有任何更新。相反地,如果单是使用Unicode作为系统编码,处理香港字则没有问题。
桌面环境方面,KDE 3.x桌面因为使用QT 3.x,而QT 3.x内部使用UCS-2存储字符,因此KDE 3.x只能有限度地显示少部分香港字。这情况期望在KDE 4.0解决。
GNOME没有这方面的问题,只要是使用Unicode,在2004至2005年间就已经能够显示所有BMP以外的字符。
输入字符
编辑截至2007年3月,支持香港字集的开源输入法有:SCIM、OXIM;不支持的有:IIIMF、gcin。但有些输入法并非输出Unicode中真正编配给香港字的码位,而是一些造字区的码位,例如SCIM中的仓颉五代输入法便是这样。
Mac OS
编辑显示和处理字符
编辑此条目需要更新。 (2019年1月18日) |
Mac OS X 10.0至10.2版本支持的版本为HKSCS-1999。10.3、10.4、10.5及最新之10.6支持HKSCS-2001;10.4有部分HKSCS-2004新增字符,但编码对应Unicode私人使用区;10.5及10.6有HKSCS-2004全部新增字符,但只有Unicode(4.1版本)编码。
输入字符
编辑使用地区
编辑除了香港使用香港字以外,现在台湾的中文电脑也有少部分使用它的(如处理常见但Big5未有收录的人名用字,如“堃”和“喆”字;此外,台湾也有自己的一两套外字集,如中国海字集)。而同样使用粤语和繁体字的澳门也有使用这套字集,也许还有其他华语地区会使用。
澳门政府网站、澳广视和很多澳门报纸网站已改用Unicode(UTF-8)编码,因现在大部分系统已支持Unicode和内置相应字体,毋需额外安装包即可显示澳门特有地名用字,如氹仔。
派生
编辑日和字集
编辑“日和字集”乃香港增补字符集采用Big5码时期,香港人内木一郎和阿烈开发的True Type Eudc造字档,以兼容香港增补字符集为卖点,增补字集仍没涵盖的日语假名、日本汉字和日本国字,有细明体、标楷体、中黑体等配合Windows 95、98、NT等操作系统字体的字款,并附有仓颉、速成等输入法作辅助,以及把字集文档转换至日语编码的转码器工具。
香港增补字符集完全过渡至Unicode编码后,日和字集增补的字符基本上都已有Unicode编码,操作系统字体能直接显示,因此日和字集停止更新。
开源香港常用中文字体计划
编辑社会上有志愿人士开始了开源香港常用中文字体计划。以CJK Unifonts的UMing、UKai字体为基础,增补香港增补字符集的所有字符。
评价
编辑香港增补字符集一直需要和Big5码兼容,可说是一套先天不足的字集。它要处理前期许多遗留下来的问题,也有外字字数上限,致使香港特区政府打算在2007年至2008年放弃它的Big5码。如果系统使用Unicode编码,用它反而较好。当今的趋势是使用Unicode,它有足够的字符,几乎可以满足文字学家、字典专家的用字要求。但因为兼容性的关系,要将整套系统由使用Big5码转换至Unicode颇费时,因此还会有人暂时不愿意转换。
增收原则更改
编辑《香港增补字符集》自2008年3月31日起更改字符增收原则,新增的字符只会编配ISO 10646国际编码标准内码,不再编配大五码内码。政府信息技术总监办公室表示,全面采用ISO 10646国际编码,可统一编码标准,解决兼容问题。ISO 10646国际编码标准涵盖各种主要语文的字符,包括繁体及简体中文字,提供统一的字符编码标准,方便世界各地的电脑用户。《香港增补字符集》3月31日起更改字符增收原则,在此之前获编配的字符,则不受影响。政府1999年公布《香港增补字符集》,由中文界面咨询委员会负责管理,收纳适用于香港的中文电脑用字,以解决电子通信出现乱码或字符不能正确地显示等问题。
参看
编辑注释
编辑- ^ 「中文界面諮詢委員會」網站. [2017-07-17]. (原始内容存档于2017-03-07). (页面存档备份,存于互联网档案馆)
- ^ 有關《香港增補字符集》的問題及解答. [2017-07-17]. (原始内容存档于2017-06-28). (页面存档备份,存于互联网档案馆)
- ^ 存档副本. [2019-07-09]. (原始内容存档于2019-07-09). (页面存档备份,存于互联网档案馆)
- ^ 一套以部件為基礎的字形參考指引. [2017-07-17]. (原始内容存档于2017-06-07). (页面存档备份,存于互联网档案馆)
- ^ 香港電腦漢字參考字形. [2017-07-17]. (原始内容存档于2020-03-28). (页面存档备份,存于互联网档案馆)
- ^ 共通中文界面網站. www.ccli.gov.hk. [2022-04-15]. (原始内容存档于2022-06-20). (页面存档备份,存于互联网档案馆)
- ^ 香港標準楷書全通集. www.rnb.com.hk. [2010-01-07]. (原始内容存档于2009-03-12). (页面存档备份,存于互联网档案馆)
- ^ 華康標準宋體. www.rnb.com.hk. [2010-01-07]. (原始内容存档于2009-07-22). (页面存档备份,存于互联网档案馆)
- ^ [1] (页面存档备份,存于互联网档案馆)
- ^ [2]
外部链接
编辑字符和编码
编辑- 香港特区政府:共通中文界面 (页面存档备份,存于互联网档案馆)
- ISO10646HK.NET(香港理工大学) (页面存档备份,存于互联网档案馆)
- ISO/IEC10646工作小组
- 表意文字小组 (页面存档备份,存于互联网档案馆)
- 香港生产力促进局对于各种商业产品的香港字支持情况列表
- 无线移动设备对《香港增补字符集 《香港增补字符集》的支持 (页面存档备份,存于互联网档案馆)
- 香港增补字符集2004附录四《政府通用字库》字符兼容码位 (页面存档备份,存于互联网档案馆)
编码表
编辑- 政府通用字库(1995年)码表 (页面存档备份,存于互联网档案馆)
- HKSCS-1999 码表 (页面存档备份,存于互联网档案馆)
- HKSCS-2001 码表 (页面存档备份,存于互联网档案馆)
- HKSCS-2004 码表 (页面存档备份,存于互联网档案馆)
- HKSCS-2008 码表 (页面存档备份,存于互联网档案馆)
- HKSCS-2016 文件 (页面存档备份,存于互联网档案馆)
字体
编辑参考书籍、文章
编辑- Lunde, Ken. CJKV Information Processing (paperback) First Edition. O'Reilly and Associates, Inc. 1999: 1128页 [2005-07-17]. ISBN 978-1-56592-224-2. (原始内容存档于2005-08-26) (英语). (页面存档备份,存于互联网档案馆)
- Graham, Tony. Unicode: A Primer. Wiley. 2000: 528页. ISBN 978-0-7645-4625-9. (原始内容存档于2005年7月3日) (英语). (页面存档备份,存于互联网档案馆)
- 竹竹人水. 中文電腦經脈通. 电脑易出版社. 2003年7月. (原始内容存档于2008年7月6日). (页面存档备份,存于互联网档案馆)
- 伍新华. 中文電腦應用《附95補充字集》. 德嘉书业. 1999年9月. ISBN 978-962-7690-25-2.
- Linuxer(现已停刊)2002年9月号:我们的Big5码[永久失效链接],谢东翰
- 香港星岛日报。2008年4月2日星期三。《增补字符集更改增收原则》:[3] (页面存档备份,存于互联网档案馆)