指代
在語言學中,指代(英語:coreference)是用代词或名词替代出现过的字词,以避免它们重複出現在句子上,導致語句結構過於贅述和語意不夠清晰。
“指代”在各门学科的专门用语上,也指用抽象概念代替具体事物[1]。
範例
编辑舉例:
The handsome boy stared at Mary and said nothing: he seemed offended by her manner.
此處的"The handsome boy"與"he"意指為同一人;"Mary"與"her"意指為另同一人。
指代消解
编辑在計算語言學中,指代消解(Coreference Resolution)是一個很重要的議題,一般被應用於處理資訊檢索中的前處理部份,主要是找回原先被替換過的字詞,為了避免重要的字詞因指代的因素而造成權重計算降低的問題,例如:以中文維基百科中的北極熊條目為例,如下所示,由於指代的因素,其文中原為北極熊之意的字詞會被代換成白熊、熊、牠和肉食動物等等的字眼,如此的表示方式,在權重計算上會產生因為北極熊此字詞出現次數過於稀少,而導致資訊檢索系統誤判為不是描述北極熊文件,因此,透過指代消解的處理,可以將被替換過的字詞還原成原有的意思,以提高權重計算的次數,增加檢索的正確性。
- 北極熊又稱白熊,是在北極裡生長的熊,牠是陸上最龐大的肉食動物。在牠生存的空間裡,牠是食物鏈最頂層。牠擁有極厚的脂肪及毛髮來保暖,其白色的外表在雪白的雪地上是良好的保護色,而且牠可以在陸上及海上捕捉食物,因此牠能在北極這種極嚴酷的氣候裡生存。
参考
编辑參見
编辑外部連結
编辑- Illinois Coreference Package Coreference resolution package implemented in Java. Demo