詞義消歧

計算機語言學中，詞義消歧是一個自然語言處理和本體論的開放問題。歧義與消歧是自然語言理解中最核心的問題，在詞義、句義、篇章含義層次都會出現語言在上下文語義不同的現象，消歧即根據上下文確定對象語義的過程。詞義消歧即在詞語層次上的語義消歧。語義消歧（詞義消歧）是自然語言處理任務的一個核心與難點，影響了幾乎所有任務的性能，比如搜尋引擎、意見挖掘、文本理解與產生、推理等。

在語言學長期發展的過程中，語言本身積累了許多一詞多義的用法。語言的產生是多方面共同作用的結果。語言的使用是不斷變化的，一個詞在發展中有許多具體的意思，現在通用的還有一些意思。不同地區可能對一個詞有不同的用法，不同的行業對一個詞的用法也會不同，甚至不同群體、不同個人、不同語氣都會有自己的特殊的解讀意思。語義消歧是一種語言理解的方式，一方面我們要理解通用詞語一詞多義的含義及應用，另一方面，還要考慮到具體場景，運用相關知識庫、語料訓練來增加一詞多義的性能。

迄今為止，豐富多樣的技術已經被研究：以詞典為基礎的方法、使用知識庫與知識圖譜技術的、監督學習的、無監督的、半監督的、基於詞或者詞向量的。

困難

詞典

基於詞典的語義消歧依賴於詞典對語義的區分。粒度的一詞多義指區分較大的語義，比如水，可能表示自然水，也可能指水貨；細粒度的一詞多義指能區分較小不同的語義。如果詞典缺少某一層次或某一些語義的描述，以詞典作為詞語義的完全描述就會導致問題。這個特點對詞義消歧與實體連結（英語：Entity linking）同樣適用。解決這個問題的辦法是：對描述較少的語義聚集自動增量增加聚類分析。

英文裏常用的字典包括WordNet、Roget's Thesaurus（英語：Roget's Thesaurus）、BabelNet。任意語言都可以把常用的字典、詞典、網絡百科、專業知識庫或數據庫作為消歧的詞典文件。^[1]

詞性標註

詞性標註與詞義消歧是相互關聯的兩個問題，在人的系統他們同時能到滿足。但是目前系統一般並不能讓二者公用參數，同時輸出。語義理解，包括分詞、詞性標註、詞義消歧、句法解析、語義解析並不是前饋的，是相互依賴的存在反饋的。

詞性標註與語義消歧都要依賴上下文來標註，但是詞性標註比語義消歧要簡單以及成功。原因主要是詞性標註的標註集合是確定的，而語義消歧並沒有，並且量級要大的多；詞性標註的上下文依賴比語義消歧要短。

judge依賴

有時候人也不能很好地判斷一個詞屬於哪個意思。對於粗粒度的區分肯定比細粒度的高。所以一般選擇粗粒度的任務，因為需要使用人的判斷作為黃金標準。^[2]

語用學

許多研究者認為要做到詞義消歧，需要理解語用學、一些常識。^{[誰說的？]}語言學本身就是與知識緊密結合的，肯定需要語言相關的常識幫助解析，就像實體消歧需要實體的相關的知識一樣。

不同任務使用詞義消歧的區別

不同的任務具體詞義消歧會不同。比如翻譯，不一定顯式地輸出詞義消歧中間結果，只需要最後的句子的同義。

多義的定義

人們一般能在粗粒度的定義上獲得一致的看法，當它到達更細的粒度，則很難統一。並且即便同個語義，在不同的環境裏，也許還會有不同，因為語言表達有無限的可能性，導致語義在細粒度可能會遷移。

參考資料

^ A. Moro, A. Raganato, R. Navigli.
^ Snyder & Palmer 2004，第41–43頁.

[1] A. Moro, A. Raganato, R. Navigli.

[FOOTNOTESnyderPalmer200441–43-2] Snyder & Palmer 2004，第41–43頁.

[1]

[2]