變分貝葉斯方法中,證據下界(英語:evidence lower boundELBO;有時也稱為變分下界[1]負變分自由能)是一種用於估計一些觀測數據的對數似然的下限。

術語和符號

編輯

  是隨機變量,其聯合分佈為 。例如,  邊緣分佈 是在給定 的條件下, 的條件分佈。那麼對於任何從 中抽取的樣本 和任何分佈 ,我們有:

 


我們將上述不等式稱為ELBO不等式。其中,左側稱為 的證據,右側稱為 的證據下界(ELBO)。

在變分貝葉斯方法的術語中,分佈 稱為證據。一些人使用「證據」一詞來表示 ,而其他作者將 稱為對數證據,有些人會交替使用證據和對數證據這兩個術語。

ELBO 沒有普遍且固定的表示法。在本文中我們使用 

動機

編輯

變分貝葉斯推理

編輯

假設我們有一個可觀察的隨機變量 ,並且我們想找到其真實分佈 。這將允許我們通過抽樣生成數據,並估計未來事件的概率。一般來說,精確找到 是不可能的,因此我們不得不尋找一個近似。

也就是說,我們定義一個足夠大的參數化分佈族 ,然後最小化某種損失函數  。解決這個問題的一種可能方法是考慮從  的微小變化,並解決 。這是變分法中的一個變分問題,因此被稱為變分方法。

由於明確參數化的分佈族並不多(所有經典的分佈族,如正態分佈、Gumbel分佈等都太過簡單,無法很好地模擬真實分佈),我們考慮隱式參數化的概率分佈:

  • 首先,定義一個在潛在隨機變量 上的簡單分佈 。通常情況下,正態分佈或均勻分佈已足夠。
  • 接下來,定義一個由 參數化的複雜函數族 (例如深度神經網絡)。
  • 最後,定義一種將任何 轉換為可觀測隨機變量 的簡單分佈的方法。例如,讓 具有兩個輸出,那麼我們可以將相應的分佈定義為在 上的正態分佈 

這定義了一個關於 的聯合分佈族 。從 中抽取樣本 變得非常容易:只需從 中抽樣 ,然後計算 ,最後使用 來抽樣 


換句話說,我們擁有了一個可觀測量和潛在隨機變量的生成模型。

現在,我們認為一個分佈 是好的,如果它是 的一個接近近似: 由於右側的分佈僅涉及到 ,因此左側的分佈必須消除潛在變量 的影響,即要對 進行邊緣化。

一般情況下,我們無法積分 ,這迫使我們尋找另一個近似。

由於 ,因此我們只需要找到一個 的好的近似即可。因此,我們定義另一個分佈族 來近似 ,這是一個針對潛在變量的判別模型。

下表概述了所有情況:

 :觀測量    :潛變量
 可近似的  ,簡單
 ,簡單
 可近似的  ,簡單

用貝葉斯的方式來說, 是觀測到的證據, 是潛在/未觀測到的隨機變量。分佈  上是 的先驗分佈, 是似然函數,而  的後驗分佈。


給定一個觀測值 ,我們可以通過計算 來推斷出可能導致 出現的 。通常的貝葉斯方法是估計積分:

 

然後通過貝葉斯定理計算:

 

這通常是非常耗時的,但如果我們可以找到一個在大多數 下的好近似 ,那麼我們就可以快速地從 推斷出 。因此,尋找一個好的 也稱為攤銷推斷

綜上所述,我們找到了一個變分貝葉斯推斷問題。

推導ELBO

編輯

變分推斷中的一個基本結果是,最小化Kullback–Leibler 散度(KL散度)等價於最大化對數似然: 其中 是真實分佈的熵。因此,如果我們可以最大化 

我們就可以最小化 

因此找到一個準確的近似 。要最大化 我們只需從真實分佈中抽取許多樣本 ,然後使用: 為了最大化 ,必須要找到 [註 1] 這通常沒有解析解,必須進行估計。估計積分的常用方法是使用重要性採樣進行蒙特卡洛積分 其中, 是我們用於進行蒙特卡羅積分的在 上的抽樣分佈。因此,我們可以看到,如果我們抽樣 ,那麼  的一個無偏估計量。不幸的是,這並不能給我們一個對 的無偏估計量,因為 是非線性的。事實上,由於琴生(Jensen)不等式,我們有: 事實上,所有明顯的 的估計量都是向下偏的,因為無論我們取多少個 的樣本,我們都可以由琴生不等式得到: 減去右邊,我們可以看出問題歸結為零的有偏估計問題: 通過delta 方法,我們有 如果我們繼續推導,我們將得到加權自編碼器。[2]但是讓我們先回到最簡單的情況,即 : 不等式的緊度有一個解析解: 這樣我們就得到了ELBO函數: 

最大化 ELBO

編輯

對於固定的 ,優化 的同時試圖最大化 和最小化 。如果  的參數化足夠靈活,我們會得到一些  ,使得我們同時得到了以下近似: 由於 我們有 所以 也就是說: 最大化ELBO將同時使我們得到一個準確的生成模型 和一個準確的判別模型  

主要形式

編輯

ELBO具有許多可能的表達式,每個表達式都有不同的強調。 這個形式表明,如果我們抽樣  , 則 是 ELBO 的無偏估計量 這種形式顯示 ELBO 是證據 的下界 ,並且關於 最大化 ELBO 等價於最小化從   KL 散度 . 這種形式顯示,最大化ELBO同時試圖將 保持接近 ,並將 集中在最大化 的那些 上。也就是說,近似後驗 在保持先驗 的同時,朝着最大似然 移動。 這個形式顯示,最大化ELBO同時試圖保持 的熵高,並將 集中於最大化 的那些  。也就是說,近似後驗 在均勻分佈和向最大後驗 之間保持平衡。

數據處理不等式

編輯

假設我們從 中取 個獨立樣本,並將它們收集在數據集 中,則我們具有經驗分佈 。其中 表示衝激函數(Dirac函數)。

 擬合 通常可以通過最大化對數似然 來完成: 現在,根據 ELBO 不等式,我們可以約束  , 因此 右側簡化為 KL 散度,因此我們得到: 這個結果可以解釋為數據處理不等式的一個特例。

在這個解釋下,最大化 等價於最小化 ,其中上式是真實的需要估計的量 的上界,通過數據處理不等式獲得。也就是說,我們通過將潛在空間與觀測空間連接起來,為了更高效地最小化KL散度而付出了較弱的不等式代價。[3]

參考

編輯
  1. ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114 . 
  2. ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始內容存檔於2023-03-22). 
  3. ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691 . doi:10.1561/2200000056. (原始內容存檔於2023-03-22) (English). 

註釋

編輯
  1. ^ 事實上,根據Jensen不等式,有   這個估計量存在向上的偏差。這可以看作是過度擬合:對於一些有限的採樣數據   ,通常存在一些   比整個   分佈更好地擬合它們。