分词书写
中文分词书写(Chinese word-segmented writing),也称分词连写或词式书写,是指像英文等拼音文字一样,按词书写,在词与词之间留出空格[1]。例如以下的句子在词和词之间加上空格,就是中文分词书写的句子。
- 乒乓 球拍 卖完了。
分词书写可提高汉语阅读和信息处理的效率。例如:传统写法“乒乓球拍卖完了。”有歧义,用分词书写可根据需要明确表达为“乒乓 球拍 卖完了。”或“乒乓球 拍卖 完了。”[2]
历史
编辑中文和英文都曾经没有标点没有分词书写。现在英文等拉丁文字两者都用上了。中文在1900年代初五四新文化运动前后引入了标点符号,但是单词之间仍然没有边界记号,没有分开来写。[3]
在1950年代,中国语言学家曾讨论过采用分词书写的建议,但没有获得通过。 [3]
1987年,陈立为在国际中文信息处理会议上再次提出中文分词书写的想法。 [4]
第一篇分词书写的中文文章的出现不晚于1998年,当时在中国的〈中文信息学报〉中发表了题为《也谈汉语书面语的分词问题——分词连写十大好处》的论文。[5] 全文(共七页)分词连写,其摘要如下:
摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。
2018年,英文维基学院发表了一篇题为"Word segmentation of Hanzi" (汉字分词)的短文,其中文版全文分词如下:[6]
历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 (汉字的 分词连写)。
第一本分词书写的书籍是2000年出版的《语言 理论》。 [7]
汉字分词书写
编辑中文通常是用汉字书写的,所以中文分词书写主要是指汉字文本的分词书写。以下介绍分词书写的一些方法或依据。
以表意为主导
编辑分词书写的主要目的是准确、清楚地表达作者的意思。 例如,传统的非分词句子 “美国会反对。” 有两种可能的含意,分词书写可根据需要清楚表达为 “ 美国 会 反对。”(The US will oppose.) 或 “ 美 国会 反对。” (The US Congress opposed)。又如,“昨天我应用钢笔签名。”也有歧义,用分词书写可以表达为“昨天 我 应用 钢笔 签名。(做了) ”和“昨天 我 应 用 钢笔 签名。 (可能没做)”。这种区别对法庭来说可能很重要。 作者应该根据自己的意思选择正确的分词方式,消除歧义。 [3]
使用词典和语言知识
编辑如果不能确定某个字串是否为合法单词,作者可以在可靠的汉语词典或分词语料库中检查其是否存在,例如现代汉语词典、重编国语辞典修订本[8]和平衡语料库[9]等。 或根据词汇、词法和句法知识检查它是否是语言学上合格的单词。 [10]
参考口语规则
编辑在口语中,两个单词之间通常有或者可以有停顿,而单词内音节之间一般不允许停顿。[11][12]
空格的宽度
编辑两个词之间的间距设定为汉字宽度的一半比较合适,小于两行之间的距离。 由于汉语词的平均长度约为2个字,如果词间空格是一个汉字的宽度,且大于行间距离,则页面上的文字行会显得分散,不紧凑。 更理想的做法是由电脑根据上下文环境做智能的动态调整,类似于MS Word的排版功能。[13]
专有名词的标记
编辑英文是用大写字母来标记。汉字文本的专有名词也应该有标记,例如用底线。[3] 事实上,某些中文圣经(例如现代标点和合本)已经这样做了。例如:
7. 耶和華神用地上的塵土造人,將生氣吹在他鼻孔裏,他就成了有靈的活人,名叫亞當。8. 耶和華神在東方的伊甸立了一個園子,把所造的人安置在那裏。(創世記 2:7-8) [14]
拼音分词书写
编辑拼音通常用来给汉字注音,但是在初级汉语教学或对外汉语教学中有时也用拼音直接表达汉语,所以拼音的书写也是一种中文书写,同时还可以是汉字分词书写的重要参考。[15] 《汉语拼音正字法基本规则》是汉语拼音书写和分词的中国国家标准。其主要内容《5. 总则》摘录如下:[16]
拼音正字法总则摘录
编辑5.1 拼写普通话基本上以词为书写单位。例如: rén (人), pǎo (跑), hǎo (好), fúróng (芙蓉), māma (妈妈), diànshìjī (电视机), túshūguǎn (图书馆)。
5.2 表示一个整体概念的双音节和三音节结构,连写。例如: quánguó (全国), zǒulái (走来), dǎnxiǎo (胆小), duìbuqǐ (对不起), chīdexiāo (吃得消)。
5.3 四音节及四音节以上表示一个整体概念的名称,按词或语节(词语内部由语音停顿而划分成的片段)分写,不能按词或语节划分的,全都连写。例如: wúfèng gāngguǎn (无缝 钢管), huánjìng bǎohù gūihuà (环境 保护 规划), jīngtǐguǎn gōnglǜ fàngdàqì (晶體管 功率 放大器), yánjiūshēngyuàn (研究生院), hóngshízìhuì (红十字会)。
5.4 单音节词重叠,连写;双音节词重叠,分写。例如: rénrén (人人), niánnián (年年), yánjiū yánjiū (研究 研究), xuěbái xuěbái (雪白 雪白), tōnghóng tōnghóng (通红 通红)。
重叠并列即AABB式结构,连写。例如: láilaiwǎngwǎng (来来往往), qīngqīngchǔchǔ (清清楚楚), fāngfāngmiànmiàn (方方面面)。
5.5 单音节前附成分(副、总、非、反、超、老、阿、可、无、半等)或单音节后附成分(子、儿、头、性、者、员、家、手、化、们等)与其他词语,连写。例如: fùbùzhǎng (副部长), zǒnggōngchéngshī (总工程师), fùzǒnggōngchéngshī (副总工程师), zhuōzi (桌子), háizimen (孩子们)。
5.6 为了便于阅读和理解,某些并列的词、语素之间或某些缩略语当中可用连接号。例如: bā-jiǔ tiān (八-九 天), rén-jī duìhuà (人-机 对话), Jīng-Zàng Gāosù Gōnglù (京-藏 高速 公路)。
此外,还有一些其他方面的规则,请见该规范的原文。[17]
分词实例
编辑下面是一个较长的分词书写例子。联合国《世界人权宣言》中文版第一条 :[18]
人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。
其拼音可分词连写为
Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài.
相应的,其汉字文本分词书写形式是
人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应 以 兄弟 关系 的 精神 相 对待。
英文原文:[19]
All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.
评论
编辑优点
编辑中文分词书写的优点包括:[20]
- 有利于语言表达和理解。
- 有利于汉语教学。
- 有利于语言学研究。
- 有利于汉语词汇的定义和应用。
- 有利于电脑自然语言处理。
- 有利于拼音与汉字的自动转换。
- 有利于简繁体汉字转换。
- 有利于校对文章、防止错字。
- 有利于文件排版。
- 有利于软件的汉化或西化。
- 将分词书写的文本自动正确转换为非分词形式容易,反之则难。
- 等等。
缺点
编辑中文分词书写的缺点包括:[21]
- 需要(大约1/4)更多的(纸面)空间。
- 人们还不习惯这种书写方式。
- 需要辨识每个单词。
- 句子看起来不像没有空格的传统格式那么整齐。
- 大多数中文单词都是一两个字长,即使不使用边界标记,辨识也不困难。
计算机自动分词
编辑在分词书写普及之前,可用计算机技术来进行汉语文本自动分词。 目前自动分词的准确度已达到百分之九十几, 但仍需要人工校对, 而且永远不会像作者亲自分词那么可靠。 [22] [23]
参见
编辑参考资料
编辑- ^ 陈, 力为 (陈力为). 汉语书面语的分词问题- - 一个有关全民的信息化问题. (中文信息学报). 1996,. 10 (1996) (1): 11–13 [2023-12-09]. (原始内容存档于2023-07-08).
- ^ 张, 小衡 (张小衡). 也谈汉语书面语的分词问题——分词连写十大好处. 中文信息学报. 1998,. 12 (1998) (3): 57–63 [2023-12-09]. (原始内容存档于2023-06-06).
- ^ 3.0 3.1 3.2 3.3 陈 1996,第12页.
- ^ 陈, 力为 (陈力为). 当前中文信息处理 中的几个问题及其发展前景. 计算机世界(Chinese Computer World ). 1987, 21 (34).
- ^ 张 1998,第57-63页.
- ^ English-Chinese/Word segmentation of Hanzi - Wikiversity. [2023-12-09]. (原始内容存档于2023-07-08).
- ^ 彭, 泽润 (彭泽润、李葆嘉 eds). 语言理论. 长沙: 中南大学出版社. 2000. ISBN 978-7-810-61342-2 (中文).
- ^ 教育部《重編國語辭典修訂本》. 2021 [2023-12-08]. (原始内容存档于2024-06-05).
- ^ 存档副本. [2023-12-09]. (原始内容存档于2023-09-28).
- ^ 张 1998,第61页.
- ^ Haspelmath, Martin. The indeterminacy of word segmentation and the nature of morphology and syntax. Folia Linguistica. 2011, 45 (1) [2023-12-09]. ISSN 0165-4004. S2CID 62789916. doi:10.1515/flin.2011.002. (原始内容存档于2023-09-22).
- ^ 存档副本. [2023-12-09]. (原始内容存档于2024-05-28).
- ^ 张 1998,第62页.
- ^ 联合圣经公会. 聖經(現代標點和合本). 香港: 浸信会出版社. 1998. ISBN 962-933-101-2 (中文).
- ^ Arcodia, Giorgio (and Basciano, Bianca). Chinese Linguistics. Oxford: Oxford University Press. 2021: 84–85. ISBN 978-0-19-884784-7.
- ^ 国家语委. 漢語拼音正字法基本規則 (PDF). 2012 [2023-12-08]. (原始内容存档 (PDF)于2020-12-06).
- ^ 国家语委 2012.
- ^ Universal Declaration of Human Rights - Chinese, Mandarin (Simplified). unicode.org. [2023-12-11]. (原始内容存档于2022-01-19).
- ^ 存档副本. [2023-12-23]. (原始内容存档于2021-03-16).
- ^ 张 1998,第57-61页.
- ^ 陈 1996,第12页.
- ^ 张 1998,第57页.
- ^ 刘, 开瑛 (刘开瑛). 中文文本自動分詞和標注. 北京: 商务印书馆. 2021. ISBN 7-100-03068-4.
外部链接
编辑- Chinese word-segmented writing (https://en.wikipedia.org/wiki/Chinese_word-segmented_writing#See_also (页面存档备份,存于互联网档案馆))
- Word boundaries (https://en.wikipedia.org/wiki/Word#Word_boundaries (页面存档备份,存于互联网档案馆))
- Text segmentation (https://en.wikipedia.org/wiki/Text_segmentation (页面存档备份,存于互联网档案馆))
- Chinese Word Segmentation. [2023-12-08]. (原始内容存档于2024-04-12).