邊緣似然

在統計學中， 邊緣似然函數（marginal likelihood function），或積分似然（integrated likelihood），是一個某些參數變量邊緣化的似然函數（likelihood function）。在貝葉斯統計範疇，它也可以被稱作為證據或者 模型證據的。

概念

給出一組獨立同分布的數據點 $\mathbb {X} =(x_{1},\ldots ,x_{n}),$ , $x_{i}\sim p(x_{i}|\theta )$ , 其中θ 是一個通過分布描述的隨機變量，即 $\theta \sim p(\theta |\alpha ),$ 概率 $p(\mathbb {X} |\alpha )$ ，其中θ是邊緣分布(積分結果):

p(\mathbb {X} |\alpha )=\int _{\theta }p(\mathbb {X} |\theta )\,p(\theta |\alpha )\ \operatorname {d} \!\theta

上述定義是在貝葉斯統計範疇給出的。在經典的(頻率派)的統計學中，邊緣似然這一概念產生於聯合參數θ=(ψ,λ)，其中 ψ 是我們關心的實際參數，λ是一個不關心的冗餘參數。如果λ服從概率分布，那麼通常可以通過邊緣化λ來考慮ψ的似然函數：

{\mathcal {L}}(\psi ;\mathbb {X} )=p(\mathbb {X} |\psi )=\int _{\lambda }p(\mathbb {X} |\lambda ,\psi )\,p(\lambda |\psi )\ \operatorname {d} \!\lambda

不幸的是，邊緣似然一般很難計算。只有在邊緣化輸出參數是數據分布的共軛先驗的情況下, 很少的一部分分布的可以得到確切解。在其他情況下，需要通過一些數值積分方法得到，無論是通用的法如高斯求積或蒙特卡洛方法，或一種統計問題的專用方法，例如拉普拉斯方法, 吉布斯/梅特羅波利斯採樣，或者最大期望算法。

在貝葉斯的範疇內，這等價於數據點的先驗預測分布。

應用

貝葉斯模型比較

在貝葉斯模型比較，被邊緣化的變量的參數用於特定類型的模型，其餘可變標識的的模型本身。在這種情況下，邊緣似然是數據點由模型給出的概率，而不是假設的任何特定的模型參數。用θ表示模型參數，模型M的邊緣似然是

p(x|M)=\int p(x|\theta ,M)\,p(\theta |M)\,\operatorname {d} \!\theta

它是在這一背景下，術語模型證據是一種常見表達。這一數量是重要的，因為後驗幾率比為一個模型M₁ 針對另一個模型M₂ 的比率邊緣似然，稱為貝葉斯因子:

{\frac {p(M_{1}|x)}{p(M_{2}|x)}}={\frac {p(M_{1})}{p(M_{2})}}\,{\frac {p(x|M_{1})}{p(x|M_{2})}}

它可以表示成如下形式

後驗幾率 =先驗幾率× 貝葉斯因子

參見

經驗貝葉斯方法
邊緣分布
Lindley's 悖論

參考文獻

Charles S. Bos. "A comparison of marginal likelihood computation methods". In W. Härdle and B. Ronz, editors, COMPSTAT 2002: Proceedings in Computational Statistics, pp. 111–117. 2002. (Available as a preprint on the web: [1] （頁面存檔備份，存於網際網路檔案館）)
The on-line textbook: Information Theory, Inference, and Learning Algorithms], by David J.C. MacKay.