今昔文字镜
今昔文字镜(日语:今昔文字鏡/こんじゃくもじきょう)是日本AINet开发、日语:文字鏡研究會/もじきょうけんきゅうかい出版发行的一款东亚文字检索软件,在Windows平台上运行。收字量庞大,最新版本收录文字达17万以上。所收字类型有诸桥辙次编《大汉和辞典》中的全部汉字、和制汉字、简化字、方言字、甲骨文、篆书等各类汉字,喃字、水族文字、悉昙文字、西夏文字、变体假名、台湾语假名等其他文字。[1]由石川忠久担任主席的文字镜研究会[2]最初将其字符集、相关软件及数据以CD-ROM形式由纪伊国屋书店重新分发。[3]
开发者 | 石川忠久、古家时雄、文字镜研究会 |
---|---|
首次发布 | 1.0 / 1997年7月 |
最终版本 | 4.0(2018年12月15日 | )
操作系统 | Microsoft Windows |
文件大小 | 51MB |
语言 | 日语 |
类型 | 与字型及字符映射表绑定的字符编码 |
许可协议 | 专有软件 |
网站 | mojikyo |
目标
编辑今昔文字镜编码本为提供完整的中日韩文字符索引。它还对古代文字中的大量字符进行编码,如甲骨文、篆书、悉昙文等。它是许多字符唯一一种字符编码,其数据也常作为Unicode提案的起点。[4][5]但文字镜的收录标准比Unicode宽松许多,这使得文字镜许多字符来源可疑,甚至可能是虚构的。[6][7]因此,虽然许多文字镜收录的字符尚未被Unicode收录,但因各家标准不同,并非所有文字镜字符都能收录进Unicode。
组成
编辑文字镜字体(文字鏡フォント)是一系列TrueType字体,以一个ZIP格式文件封装,每种字体约有2-5兆字节;不同字体包含的字符数也不同。[note 1]还有一个EXE格式的字符映射集(文字鏡MAP),即MOCHRMAP.EXE。这允许用户浏览文字镜字体并复制、粘贴字符。相较于常规的Windows字符映射集或KCharSelect,MOCHRMAP.EXE还能显示字符的文字镜编码。[8][note 2]为让MOCHRMAP.EXE正常工作,须安装所有字体(于C:\Windows\Fonts)。
编码
编辑文字镜中字符编码常用MJXXXXXX格式,类似于Unicode所用的U+XXXX格式。例如,变体假名U+1B008 𛀈 的文字镜编码为MJ090007,Unicode编码为U+1B008。[9]两者的不同之处在于,文字镜编码为十进制,Unicode的U+码为十六进制。
自Unicode创始开始,文字镜既影响了标准,也受到了标准的影响—来自它的字形于2002年4月18日首次出现在提交给表意文字小组(IRG)的提案中,该小组负责Unicode所有中日韩统一表意文字区块[10][11][12]。2007年5月,文字镜提供了Unicode中西夏文的编码,[13]到2002年10月,文字镜中已经有约6千个西夏文单字。[14]
Unicode标准的Unihan数据库将文字镜称作“日本国字集”,缩写“JK”。[15]例如,U+2B679 𫙹 (⿰魚嵐)在日语中读作blizzard(ブリザード|burizādo),其J源[note 3]就等于JK-66038。所有带JK前缀的J源Unicode字符都来自文字镜。[16][note 4]据字符编码、东亚语言专家小林剑所说,截至Unicode 13.0,Unicode中有782个表意文字来自文字镜,分布在2个Unicode区段:中日韩统一表意文字扩展区C中367个,中日韩统一表意文字扩展区E中415个。[17][18]不是所有文字镜来源的Unicode字符(JK前缀J源)都跟文字镜字体相同,一些字符的形状在最终编码之前被改变了,调查显示文字镜分配的字形有误。[7][note 5]
区段
编辑截至2006年9月[update],它共编码了17,4975个字符。[14]其中有15,0366个字符属于扩展CJK文字区。[note 6][19]许多编码的字符被认为是过时的或不必要的,且没被任何其他字符集编码,包括国际标准Unicode。每个文字镜字符都有一个独特的编号,许多字符的编号组成区段。
文字镜依传统康熙部首排序将中日韩文字放在不同区段中。含字极多的常见部首,如人部、辵部进一步依笔画数排序。
无统一性
编辑文字镜不像Unicode那样试图搭建统一汉字集,没有尝试紧凑编码,也没有将所有常用字符维持在U+FFFF以下。
Unicode则依据中日韩汉字的出现频率分为若干块,最常见的位于基本多文种平面,[note 5]较生僻的位于辅助多文种平面。
例如,人部有分别来自中国和日本的MJ054435(令)、MJ059031(令)两个字符,Unicode中均为U+4EE4 <control-4EE4> 。
许可
编辑今昔文字镜是有限制性许可的专有软件。最初,文字镜研究所试图阻止其字符数据的滥用,并威胁那些发布字符集转换表的人。2010年7月,文字镜研究所放弃了以法律阻止多个日本用户发布转换表或将文字镜编码字符转换为Unicode或其他字符的努力。[20]单纯的数据,有时包括字体,在许多司法管辖区被认为是共同财产,因为它们不符合原创性门槛。
然而,由于这一遗留问题,GlyphWiki从2020年起不再允许使用文字镜数据。[21]
书写系统
编辑至今存活
编辑死文字
编辑历史
编辑今昔文字镜开发于1985年,1996年电子化[22]。1997年7月,大修馆书店以CD-ROM形式发布其1.0版本[23],当时只收有不到8万个字。1999年,在TrueType上搭载的2.0版本发售。
2001年收录西夏文字,并发布“今昔文字镜 单汉字10万字版”,收录字数约102,300。同年收录楷书。“文字镜Web”网站也开始出现。
2006年发布“今昔文字镜 单汉字15万字版”(4.0版),发布专业版“Indexfont Ver. 1.0”。[24]
2008年3月末“文字镜Web”关闭。[25]6月初“今昔文字镜 UnicodeEdition”发售。[26]
2010年3月15日,发布专业版“Indexfont Ver. 2.0”。[27]
2015年,开发者之一、社长古家时雄去世,改由石川忠久接手,于次年散会。为作纪念,文字镜最新版开始作为免费软件上传到互联网档案馆。[28]
至今(2017年),今昔文字镜的网路版都还在重新构筑当中。[29]
2018年12月15日,4.0版本发布。次日,石川忠久宣布此为文字镜最终版。
注释
编辑- ^ 自官网 Archive.is的存档,存档日期2019-12-29下载MojikyoCmap400ALL49TTF.7z
- ^ 见官网 Archive.is的存档,存档日期2019-12-29截图
- ^ 这是Unihan数据库中一个行名,此处⟨J⟩为“日本来源文字”缩写。行名全称为
kIRG_JSource
。Unihan架构中共有9个此种来源。 - ^ 也有其他J源前缀,如J4表示其来自JIS X 0213:2004。
- ^ 5.0 5.1 当然,大型表意文字集的错误并不少见。这种错误甚至会发生在资金充足的政府制作的集合中,例如日本产业标准调查会JIS X 0208的出处不明的汉字。所有这些幽灵汉字(如彁)虽不是真正的汉字,却也能进入Unicode。
- ^ 对朝鲜、韩国指朝鲜汉字,对越南指喃字。
参考文献
编辑- ^ 今昔文字鏡とは. [2013-01-18]. (原始内容存档于2010-04-27).
- ^ 今昔文字鏡について [About Mojikyō]. Mojikyō Institute. [2020-07-06]. (原始内容存档于2001-02-03) (日语).
- ^ ようこそ、今昔文字鏡の世界へ! [欢迎来到文字镜的世界!]. Kinokuniya KK. [2020-07-05]. (原始内容存档于2005-03-04) (日语).
- ^ Takada, Tomokazu; Yada, Tsutomu; Saito, Tatsuya. Proposal for hentaigana (PDF). 由Kobayashi, Tatsuo; Kobayashi, Daniel翻译. Information Processing Society of Japan. 2015-09-18 [2020-07-05]. L2/15-239. (原始内容 (PDF)存档于2021-07-28) –通过Unicode Consortium.
- ^ Hiura, Hideki; Kobayashi, Tatsuo; et al. Ideograph Variation Selector and Variation Collection Identifier. Open Internationalization Initiative. 2003-10-31 [2020-07-05]. L2/03-413. (原始内容存档于2022-04-07) –通过Unicode Consortium.
- ^ Takada, Tomokazu [高田智和]; Oda, Tetsuji [織田哲治]; et al. 平成25年度第3回文字情報検討サブワーキンググループ議事録 (PDF). Information Technology Promotion Agency, Government of Japan: 2. 2013-08-26 [2020-07-06]. (原始内容 (PDF)存档于2020-07-06) (日语).
文字镜研究会の関系者にヒアリングしたところ、オランダから提案されたWG2 N36981には文字镜のフォントが使用されているが、文字镜研究会は関与しておらず、提案内容についても疑问があるとのことであった。
- ^ 7.0 7.1 Suzuki, Toshiya [鈴木俊哉]. 統合漢字に申請された「殷周金文集成引得」図形文字の調査. IPSJ SIG Technical Report (Information Processing Society of Japan). 2009-07-30,. 2009-DD-72 (7): 2 –通过互联网档案馆 (日语).
しかし、拡张Cの标准化作业が8年の长期にわたり、また事后的に用例が必须とされたため、正式に公布された拡张C汉字の典拠は当初の典拠とはかなり异なるものとなっている。たとえば日本では当初は文字镜研究会によって选定された1000文字程度の汉字を申请していた。[...] 典拠用例确认は文字镜とは独立に行なわれたため、字形が文字镜汉字から変更されたものも多い。
- ^ Ishikawa, Tadahisa. パソコン悠悠漢字術 今昔文字鏡徹底活用. Mojikyō Institute. 1999-05-25 [2020-07-06]. (原始内容存档于2021-09-04).
- ^ MJ文字情報一覧表. Information Technology Promotion Agency. [2020-07-05]. (原始内容存档于2018-09-29) (日语).
- ^ Unicode Standard Annex #45: U-source Ideographs. The Unicode Standard. Unicode Consortium. [2022-02-06]. (原始内容存档于2022-04-01).
- ^ Appendix E: Han Unification History (PDF). The Unicode Standard. Unicode Consortium. March 2020 [2022-02-06]. (原始内容 (PDF)存档于2022-04-02).
- ^ CJK Extension C1 From Japan. Ideographic Rapporteur Group. [2022-02-06]. IRG#19 N895. (原始内容存档于2020-07-07) –通过The Chinese University of Hong Kong's Department of Computer Science and Engineering.
N895-Japan_C1
- ^ Cook, Richard. Proposal to encode Tangut characters in UCS Plane 1 (PDF). UC Berkeley Script Encoding Initiative. 2007-05-09: 4 [2022-02-06]. L2/07-143. (原始内容 (PDF)存档于2022-03-03) –通过Unicode Consortium.
- ^ 14.0 14.1 今昔文字鏡とは [What is Mojikyō?]. Kinokuniya KK. [2020-07-05]. (原始内容存档于2005-02-05) (日语).
- ^ Jenkins, John H.; Cook, Richard; Lunde, Ken (编), kIRG JSource, Unicode Standard Annex #38, Unicode Consortium, 2020-03-05 [2022-02-06], (原始内容存档于2022-04-01)
- ^ Ken Lunde [@ken_lunde]. JK-prefixed J-Source ideographs came from 今昔文字鏡, which are in Extensions C and E (the mention of Extension D was simply that what became Extension E was originally targeted to become Extension D). (推文). 2020-07-06 [2020-07-06] –通过Twitter.
- ^ Ken Lunde [@ken_lunde]. In particular, all 782 JK-prefixed ideographs are indeed from 今昔文字鏡 per IRG N862. Most were encoded in #ExtensionC, and the stragglers were encoded in #ExtensionE.. (推文). 2020-07-06 [2020-07-06] –通过Twitter.
- ^ Ken Lunde [@ken_lunde]. 367 JK-prefixed ideographs are in Extension C, and the remaining 415 are in Extension E.. (推文). 2020-07-06 [2020-07-06] –通过Twitter.
- ^ 今昔文字鏡とは [About Mojikyo]. Kinokuniya KK. [2020-07-05]. (原始内容存档于2010-04-27) (日语).
- ^ 終戦宣言 [Announcement: The War is Over]. ja:青蛙亭汉语塾 28 January 2016. 2010-07-21 [2020-07-07]. (原始内容存档于2022-02-26) (日语).
- ^ データ・記事のライセンス. GlyphWiki 9 2010年6月. [2020-07-06]. (原始内容存档于2022-03-23).
今昔文字镜およびその関连制品、データは、そのライセンス上グリフウィキには用いることができません。文字镜番号(独自部分)および文字镜のフォントに収录されているグリフそのもの、およびそれを参照、利用して作成していると判断できる情报は、グリフウィキに登录する际の典拠とすることはできませんので、ご协力をお愿いいたします。
- ^ 石川, 忠久. 古家時雄君を悼む [哀悼古家时雄君]. Mojikyō Institute. 2015年8月 [2020-07-08]. (原始内容存档于2019-12-29) (日语).
- ^ 今昔文字镜 今昔文字鏡, July 1997, ISBN 9784314900034 (日语)
- ^ XP[32ビット版](NT5.1)・Vista(NT6.0)[32ビット版]にのみ対応。“Windows XP Mode”上での动作についてはサポート対象外。
- ^ 文字鏡WEB概要. [2008-04-01]. (原始内容存档于2008-03-07).
- ^ 今昔文字鏡UnicodeEdition(WindowsNT-2000-XP-Vista - 文書作成). [2008-11-23]. (原始内容存档于2009-03-06).
- ^ XP(NT5.1)・Vista(NT6.0)[32bit版]・7(NT6.1)[32 / 64bit版]にのみ対応。XP x64 Edition(NT5.2)・Vista(NT6.0)[64bit版]および“Windows XP Mode”上での动作についてはサポート対象外。
- ^ Search: creator:"MOJIKYO Institute". 互联网档案馆. [2020-07-06] (英语).
- ^ 存档副本. [2013-08-07]. (原始内容存档于2019-01-09).
外部链接
编辑- 株式会社エーアイ・ネット
今昔文字镜[永久失效链接](现在会跳转到日文维基百科的此条目)文字镜研究会Archive.is的存档,存档日期2020-01-01(现在会跳转到日文维基百科的此条目)- 大汉和辞典的文字番号