概率論統計學機器學習中,概率圖模型(英語:Graphical Model)是用圖論方法以表現數個獨立隨機變數之關聯的一種建模法。一個個節點的圖中,節點對應一個隨機變數,記為。概率圖模型被廣泛地應用於貝葉斯統計機器學習中。

有向和無向概率圖模型的定義

編輯

在一個無向概率圖模型(Undirected Graphical Model)中,兩個節點  之間沒有邊相連,當且僅當它們對應的隨機變量  給定其它所有節點上的隨機變量條件下條件獨立。數學表述為:

 

當所有的隨機變量 的聯合分布是多元正態分布時, 被理解為是多元正態分布的方差矩陣的逆 ,又稱為精度矩陣(Precision Matrix)。現代統計學中,相當大比例的關於無向圖模型的理論結果都是在多元正態分布的假設下取得的。

在一個有向概率圖模型(Directed Graphical Model)中,兩個節點  之間的邊際獨立性和條件獨立性比較複雜,一般需要用貝葉斯球規則(Bayes Ball)來確定。

一類很重要的有向概率圖模型叫做有向無環概率圖模型(Directed Acyclic Graphs, 簡稱DAG),可以證明,相互關係能用DAG表示的p個隨機變量,其聯合分布函數可以被分解為根節點的邊際分布函數乘以由邊決定的那些條件概率。數學表述為:

 

上式中, 表示所有根節點的集合, 表示所有其它節點的集合, 表示有向圖中節點 的所有父節點的集合。

數據類型及研究課題

編輯

一般概率圖模型輸入的數據是其節點上的隨機變量 的獨立重複觀測值,可記為:

 

其中 為樣本量(Sample size)。一般來說,估計和統計推斷的目標是在哪些節點間存在邊,也就是從節點數據中恢復整個網絡的樣貌。現代統計學和生物統計學中,概率圖模型多研究高維統計的情景,即樣本量遠小於隨機變量數目: 。一般的方法是假設圖模型是一個高度稀疏的圖,也就是只有幾條很少的邊,然後運用懲罰項或邊際過濾等高維統計分析中的常用套路來獲得稀疏的估計。這樣的估計既可以是同時估計整個圖中所有的邊,也可以是對每一個節點估計其所連的邊。理論研究多集中於各種懲罰項所估計出的圖模型,其稀疏性質的正確性(這個概念叫做Sparsistency,注意它並不是相合性(Consistency))。

參見

編輯

參考資料

編輯