幽灵汉字

在JIS X 0208所收錄的漢字中,字形來源不明的漢字
本条目包含JIS X 0213日语JIS X 0213:2004编码收录的文字,相关文字需在支持JIS X 0213:2004的环境下才能正确显示。(详细

幽灵汉字(日语:幽霊漢字ゆうれいかんじ Yūrē kanji */?),又称幽灵文字(日语:幽霊文字ゆうれいもじ Yūrē moji)是JIS基本汉字所收录的出处不明汉字的总称。

概述 编辑

1978年,当时的通商产业省制定的JIS C 6226(后来的JIS X 0208)中规定了JIS第1、第2水准汉字6349字。该汉字集称为“JIS基本汉字”。当时以下列4个汉字表为典据,采用了其中的汉字:[1]

  1. 标准码用汉字表(试案)(標準コード用漢字表(試案)):情报处理学会汉字码委员会(1971年)
  2. 国土行政区划总览(国土行政区画総覧):国土地理协会日语国土地理協会(1972年)
  3. 日本生命收容人名汉字(日本生命収容人名漢字):日本生命(1973年,现已不存)
  4. 行政情报处理用基本汉字(行政情報処理用基本漢字):行政管理厅(1975年)

但制定JIS基本汉字时,由于规格未要求明示各文字的典据,JIS基本汉字中出现了不少不仅音、义、历史,而且连用例都不明确的文字,即所谓的“幽灵文字”,大约有60字,一说超过100字。

被视为幽灵文字的汉字
(52区21点) (52区18点) (52区55点)
(52区63点) (54区12点) (54区19点)
(55区27点) (55区78点) (57区43点)
(58区83点) (59区91点) (60区81点)
(61区73点) (63区80点) (66区83点)
(67区46点) (68区68点) (68区70点)
(68区72点) (68区84点) (71区19点)
(74区12点) (74区57点) (77区32点)
(78区93点) (79区64点) (80区56点)
(81区50点) (82区94点)

最具代表性的有“”、“”等字,不仅《康熙字典》中未收录,追加了国字新字体等的诸桥辙次的《大汉和辞典》(2000年补充了含部分JIS基本汉字的《补卷》除外)中也没有记载。

基于此情况,1997年制定改定规格时,其原案作成委员会以委员长芝野耕司日语芝野耕司国立国语研究所日语国立国語研究所笹原宏之日语笹原宏之等人为中心,调查了1978年规格的原案编制时参考的文献。其结果是原本被视为幽灵汉字的,多数为地名等实际有使用的汉字。

根据调查,早于1978年规格原案编制,行政管理厅在1974年整理包括上述1-3的8个汉字表并编制了《以行政情报处理用标准汉字选定为目标的汉字使用频度及对应分析结果》(行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果,下称“对应分析结果”),其中汉字表和原典均有记载。选定JIS基本汉字时参照的是对应分析结果而非原典,调查发现其中包含了很多来源于《国土行政区画总览》《日本生命收容人名汉字》的幽灵文字。特别是《日本生命收容人名汉字》在第1次规格的原案编制时,原典已经佚失,因此被批评为内容存在缺陷。[2]在此结果基础上,改定规格的委员会用校正履历复原了《国土行政区画总览》1972年版,并逐页校核其中出现的汉字。此外,他们以日本电信电话(NTT)和日本电信电话公社(电电公社)的电话簿数据库为名用例,取代现已不存的《日本生命收容人名汉字》,进行比较调查,并以30本以上的古今的字书为调查对象,进行彻底的文献参照。

另一方面,经过严密的调查后,仍有12个汉字来源不明。尽管多数来源不明的汉字也发现有各种线索,例如和古字书同形冲突的文字,或推测为资料传抄时出错,但是其中仍有“彁”这一字无任何线索[3]。因此,现时真正的幽灵汉字为此12字,狭义上则只有“彁”一字。

调查结果 编辑

前述的笹原宏之的调查结果整理收录于JIS X 0208:1997附属书7《区点位置详说》。本节选录其中一部分。

出处不明的汉字 编辑

码位 来源 偶然一致例
52-55 来源不明。有偶合的例子。 集韵》钞本中有,但或为误写;又可能是“”的异体字
52-63 来源不明。可能是“”的误写。 倭玉篇日语倭玉篇
54-12 来源为《国土行政区划总览》,但未发现。可能是“𡚴”的误认。 字镜集日语字鏡集》等中有,但或为误写
55-27 对应分析结果中无(来源不明)。可能是“”的误写。 无法同定
57-45 来源为《国土行政区划总览》,但未发现。可能是“”的误写。 中华字海》等
58-83 来源为《国土行政区划总览》,但未发现。可能是“”等的误写。 《法华三大部难字记》
59-91 来源为《国土行政区划总览》,但未发现。可能是“”的误写。 一切经音义日语一切経音義 (玄応)
60-57 来源为《国土行政区划总览》,但未发现。可能是“”的误写。 宋元以来俗字谱
74-12 来源为《行政情报处理基本汉字》,但无用例。 新撰字镜
74-57 来源为《国土行政区划总览》,但未发现。可能是“”的误写。 新撰字镜》《类聚名义抄日语類聚名義抄》等
79-64 来源为《国土行政区划总览》,但未发现。可能是“”的错别字。 宋版《广韵》中有,但或为误写
81-50 来源为《日本生命人名表》,但原典已丢失。 《类聚名义抄》
可能为来源资料中存在但规格中未收录文字之误写的文字
  • ”:对应分析结果中包含的“”未收录于JIS基本汉字,因此可能是登录了其误字体[4]。“㕓”在JIS X 0213中仍未收录。
  • ”:位于滋贺县犬上郡多贺町河内的“𡚴原”(あけんばら)的“𡚴”(“山女”的合字)未在JIS基本汉字中收录,因此可能是登录了其误字体。其来源《国土行政区画总览》制作原稿时,因用纸张剪贴造字,发现其缝隙产生了印刷痕迹,故推测该印刷痕迹可能被错误地传抄为横画[4][5]。“𡚴”于JIS X 0213中收录。

出处已判明的汉字 编辑

文字 码位 来源
52-18 《国土行政区画总览》中有用例:藤垈(ふじぬた)、相垈(あいぬた)、大垈(おんた)/山梨县
52-21 《国土行政区画总览》中有用例。垉六(ほうろく)/爱知县
54-19 《国土行政区画总览》中有用例,但现已不存。広岾町(ひろやまちょう)→広町(こうちょうちょう)/京都府
55-78 出典为《日本生命人名表》。NTT电话簿中有人名用例。
60-81 《日本地名大辞典》中有用例。石橸(いしだる)/静冈县
61-73 《国土行政区画总览》中有用例,但原典中为误字。汢の川→ の川(ぬたのかわ)[7]/高知县。2002年1月1日,考虑到便利性和用例,改用“汢”。有偶然一致例。
66-83 出自《日本生命人名表》。NTT电话簿中有人名用例。
67-46 《国土行政区画总览》中有用例,但原典中为误字。穃原→原(ようばる)/冲绳县
68-68 《国土行政区画总览》中有用例。粐蒔沢(ぬかまきざわ)[8]/秋田县
68-70 《国土行政区画总览》中有用例。粭島(すくもじま)/山口县
68-72 《国土行政区画总览》中有用例,但原典中为误字。粫田(うるちだ)→田(もちだ)/福岛县
68-84 《国土行政区画总览》中有用例。糘尻(すくもじり)/广岛县
71-19 《国土行政区画总览》中有用例。膤割(ゆきわり)/熊本县
77-32 《国土行政区画总览》中有用例,但现已不存。軅飛(たかとぶ)→飛(たかとび)/福岛县
78-93 《国土行政区画总览》中有用例。小鍄(こがすがい)/山形县
82-94 《国土行政区画总览》中有用例,但原典中为误字。鵈沢→沢(みさごさわ)/福岛县。有偶然一致例

收录于辞典 编辑

JIS汉字标准制定后,一些新出版的辞典以JIS基本汉字全覆盖为编纂方针。但由于JIS基本汉字中收录的幽灵文字缺少典据,编纂时的处理方式各异,常见方式包括以下几种。

附会套用读音
对于已实装JIS基本汉字的设备,尽管是幽灵汉字,为避免支持但无法输入的尴尬情况,存在权宜地将其解释为形声字并赋予“音读”的做法[9]。有鉴于此,一些辞典也收录了这些套用的读法。例如“彁=カ(ka)・セイ(sei)”、“椦=ケン(ken)”等。笹原宏之基于日本电子工业振兴协会(今电子情报技术产业协会日语電子情報技術産業協会)发布的调查报告(1982年)以及NEC(1982年)、日本IBM(1983年)的发行资料,批评这些读音可能是附会套用的[10]
视为形似文字的异体字
有辞典将“”作为“”的异体字[11]、将“”作为“”的异体字[12]等。但是这些辞典对该处理方法并未列出依据。
对于“”(上部为“山”下加一横“一”),由于《大汉和辞典》、《康熙字典》收有非常近似的字“”(上部为“㞢”),有将其列为后者的异体字的做法[13]。这一点也在的JIS X 0208:1997的调查中作为偶然一致例来介绍。此外,Unicode将该二字统一到了一个码位上。
解释为偶然一致的别字
也有将“”解释为“”的异体字、将“”解释为“とび”意的国字的做法。这些也已在JIS X 0208:1997调查中作为偶然一致例介绍。尽管这很可能并非标准制定时的收录意图,但这种处理方式不局限于幽灵文字的范畴,而是着重于收录文字的解释的通用性。
解释为音义未详字
直接解释为读音、意义不明。

残留的原因 编辑

笹原宏之等人对幽灵文字的调查是1997年的JIS汉字改正工作中的一环。JIS汉字改正曾于1983年的“83JIS改正”中,对字形、文字编码作出大幅变更,引起了严重的混乱,而本次改正则不希望重蹈覆辙。另外,由于JIS汉字已经收录于Unicode,此时对JIS的变更已经不仅是日本国内的问题。结果,幽灵文字不仅在JIS基本汉字中被保留,也可以通过计算机字体于全世界的电脑中使用。

用例 编辑

原本来源不明的文字,即使弄清了其正字、字义,使用频率依然不高。实际上,被判定为错别字的汉字有时会用来代用本字,而至今仍来源不明的字有时会用来代用字形相似的文字,作为异字、代替字、俗字而存在。

另外,有人利用幽灵文字“来源不明”“读法不明”的特性,将其作为暗号文书,即所谓“忍者文字”。

2011年,《朝日新闻》在自社数据库以幽灵文字“”为关键字检索,命中一条大正12年(1923)2月23日的新闻,其中出现“埼玉自”文本[14]。在扫描图像更加清晰的“朝日新闻〈复刻版〉”中检索同一新闻,可见原文本正是“埼玉自彊會”,而在旧版低分辨率扫描图像中形似“”,《朝日新闻》据此更正了检索系统文本。这也为前文中笹原宏之日语笹原宏之在1997年JIS基本汉字修订时对“”来自“”(“强”的异体字)之误写的推测提供了一条实例。但是,此篇1923年的新闻未必是“彁”的起源或唯一实例,1978年制订的JIS基本汉字完全可能根据更早的材料误识而收录“彁”字,在此之后,《朝日新闻》电子化的员工才基于相似的误识情形,得以调用已存在于JIS字符集的“彁”字。

日本作曲家LeaF以幽灵汉字为标题创作曲目《彁》(读为“”),收录于游戏《太鼓达人[15]

幽灵汉字在汉语中 编辑

“幽灵汉字”是日语中的说法,不少幽灵汉字在汉语中有意义,如:

  • 妛:古同“”,见《汉语大字典》。
  • 墸:同“”,见《汉语大字典》。
  • 壥:古同“”,见《汉语大字典》。
  • 挧:姓。见《中华字海》。
  • 槞:古同“”,见《汉语大字典》。
  • 閠:古同“”,见《汉语大字典》。
  • 椦:古同“”,见《汉语大字典》。
  • 彁:古同“”,见《后汉书律历志》(可能)[来源请求]

以下汉字仍无出处:

参考资料 编辑

  1. ^ JIS X 0208:1997. 7ビット及び8ビットの2バイト情報交換用符号化漢字集合. 日本规格协会. 1997: pp.269f (日语). 
  2. ^ 名字・名前と漢字 第9回. 大修馆书店 WEB国语教室. [2019-11-17]. (原始内容存档于2016-09-26). 
  3. ^ 前掲、pp.291f。
  4. ^ 4.0 4.1 4.2 JIS X 0208:1997. 7ビット及び8ビットの2バイト情報交換用符号化漢字集合. 日本规格协会. 1997: p.288, pp.289f, p.292 (日语). 
  5. ^ 笹原宏之. 日本の漢字. 岩波新书. 岩波书店. 2006: p.82. ISBN 4-00-430991-3 (日语). 
  6. ^ 漢字の写真字典 国字(木 12). Yoshio Yoshida. 2013年4月 [2016年12月13日]. (原始内容存档于2016年11月24日) (日语). 
  7. ^ 根据当地役所,原本从两点水“冫”。
  8. ^ JIS X 0208:1997の附属书7《区点位置详说》中误植作“粐薪沢”。
  9. ^ 微软日语输入法(MS-IME)单汉字辞书、ATOKGoogle日语输入法等。此外,使用MS-IME的反查功能查询相关文字,读音为空白。
  10. ^ 比留间直和. 幽霊文字の読み、どこから ― 変換辞書のはなし5. 朝日新闻デジタル. 2011-08-22 [2017-04-14]. (原始内容存档于2021-05-12). 
  11. ^ 戸川芳郎. 漢辞海 第四版. 三省堂. 2016. ISBN 978-438-5-14048-3 (日语). 
  12. ^ 镰田正, 米山寅太郎. 漢語林 第二版. 大修馆. 2011. ISBN 978-446-9-03163-8 (日语). 
  13. ^ 新村出. 広辞苑 第五版. 岩波书店. 1998. ISBN 978-400-0-80111-9 (日语). 
  14. ^ 比留间 直和. 大正十二年の幽霊文字. ことばマガジン:朝日新聞デジタル. 2011-09-05 [2018-07-31]. (原始内容存档于2018-07-30). 
  15. ^ @7eaF. 【新曲/告知】「彁」 (推文). 2023-02-01 [2023-02-23] –通过Twitter. 

参见 编辑

外部链接 编辑