信息抽取
信息抽取(Information Extraction,簡稱IE,又譯資訊擷取技術)主要是從大量文字資料中自動抽取特定訊息(Particular Information),以作為資料庫存取(Database Access)之用的技術。
信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算,具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化(例:不包含元數據)形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序,監督一新聞資料饋流,需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。
起源
编辑資訊檢索技術又稱為「訊息理解」(Message Understanding),其主流研究起源於1987年訊息理解會議(Message Understanding Conference, MUC),這個會議主要提倡利用自然語言處理技術,對文字資訊作更深度的剖析,以提高資訊檢索的認知程度。從1987年第一屆會議迄今,MUC已經舉辦過六次會議,每年會中皆會提供文字資料以及標準問題,供與會者以所發展的系統自動抽取訊息,這種競賽方式對於整個領域的技術提昇有很大的助益。
目的
编辑信息抽取的基本任務包含了:
- 命名实体识别(Named entity recognition,又譯「專名辨識」)
- 共指消解(Coreference)
- 术语抽取(Terminology_extraction)
在自然語言處理範疇,資訊擷取技術是雷同於資訊檢索領域的一種類型,它的目的是要以自動化的方式來擷取結構化資訊,例如:在某一個特定領域或是從非結構化機器可讀的文件中,對明確的資料進行分類、判斷上下文以及語義化的分析。
模板分類
编辑資訊擷取技術一般借助事先準備的模板(Template)以擷取特定新聞事件包括人(Who)、事(What)、地(where)與時間(When)等事實(Fact)。因為擷取事實必須對所分析的文件有某種程度的剖析理解能力,在各種資訊檢索研究課題中,資訊擷取技術一直相當仰賴自然語言處理技術,因此是傳統上最典型的智慧型檢索技術之ㄧ。
判斷文句
编辑一般資訊擷取技術的做法包括具備文件過濾程式(Text Filter),藉此從大量文件中過濾出較相關的文字片段,其作法與資訊過濾技術(Information Filtering)較為類似。接著利用剖析程式(Parser),將文件片段轉化成剖析樹(Parsing Tree)。剖析樹類似我們閱讀英文時的文法結構,是對文句做語法的分析(例如找出動詞、主詞、受詞),之後再將這些剖析樹與原先欲抽取的模板比對,擷取出有關人事地物的事實出來。
語義化分析
编辑資訊擷取的研究,主要還是針對特定領域的文件進行深度分析,因此過程中還包括詞彙語意標定(Semantic Tagging)、重要名詞片語抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、產生語意格框(Semantic Frame)等相關技術,因此開發一個資訊擷取系統必須事先建立很完整的領域知識,包括相關詞彙、片語、文法規則、語意規則等。
參考資料
编辑《圖書資訊檢索技術》卜小蝶著:文華,台北市,民85