擴散模型

深度学习算法

機器學習中,擴散模型擴散概率模型是一類潛變量模型,是用變分估計訓練的馬爾可夫鏈[1]擴散模型的目標是通過對數據點在潛空間中的擴散方式進行建模,來學習數據集的潛結構。計算機視覺中,這意味着通過學習逆擴散過程訓練神經網絡,使其能對疊加了高斯噪聲的圖像進行去噪[2][3]計算機視覺中使用通用擴散模型框架的3個例子是去噪擴散概率模型、噪聲條件得分網絡和隨機微分方程。[4]

擴散模型是在2015年提出的,其動機來自非平衡態熱力學[5]

擴散模型可以應用於各種任務,如圖像去噪圖像修復超分辨率成像圖像生成等等。例如,一個圖像生成模型,經過對自然圖像的擴散過程的反轉訓練之後,可從一張完全隨機的噪聲圖像開始逐步生成新的自然圖像。比較近的例子有2022年4月13日OpenAI公布的文生圖模型DALL-E。它將擴散模型用於模型的先驗解釋器和產生最終圖像的解碼器。[6]

數學原理

編輯

於所有圖像的空間中生成一張圖像

編輯

考慮圖像生成問題。令 代表一張圖,令 為在所有可能圖像上的機率分布。若有 本身,便可以肯定地說給定的一張圖的機率有多大。但這在一般情況下是難以解決的。

大多數時候,我們並不想知道某個圖像的絕對機率,相反,我們通常只想知道某個圖像與它的周圍相比,機率有多大:一張貓的圖像與它的小變體相比,機率哪個大?如果圖像里有一根、兩根或三根鬍鬚,或者加入了一些高斯噪聲,機率會更大嗎?

因此,我們實際上對 本身不感興趣,而對 感興趣。這有兩個效果:

  • 其一,我們不再需要標準化 ,而是可以用任何 ,其中 是任意常數,我們不需要去關心它。
  • 其二,我們正在比較 的鄰居 ,通過 

分數函數 ,然後考慮我們能對 做什麼。

實際上, 允許我們用隨機梯度朗之萬動力學 中取樣,這本質上是馬爾可夫鏈蒙特卡洛的無限小版本。[2]

學習分數函數

編輯

分數函數可通過加噪-去噪學習。[1]

主要變體

編輯

分類指導器

編輯

假設我們希望不是從整個圖像的分布中取樣,而是以圖像描述為條件取樣。我們不想從一般的圖像中取樣,而是從符合描述「紅眼睛的黑貓」的圖片中取樣。一般來說,我們想從分布 中取樣,其中 的範圍是圖像, 的範圍是圖像的類別(對y而言,「紅眼黑貓」的描述過於精細,「貓」又過於模糊)。

噪聲信道模型的角度來看,我們可以將這一過程理解如下:為生成可描述為 的圖像 ,我們設想請求者腦海中真有一張圖像 ,但它經過多次加噪,出來的是毫無意義可言的亂碼,也就是 。這樣一來圖像生成只不過是推斷出請求者心中的 是什麼。

換句話說,有條件的圖像生成只是「從文本語言翻譯成圖像語言」。之後,像在噪聲信道模型中一樣,我們可以用貝葉斯定理得到 也就是說,如果我們有一個包含所有圖像空間的好模型,以及一個圖像到類別的好翻譯器,我們就能「免費」得到一個類別到圖像的翻譯器,也就是文本到圖像生成模型

SGLD使用 其中 是分數函數,如上所述進行訓練,用可微圖像分類器便可以找到 

溫度

編輯

分類器引導的擴散模型會從 中取樣,它集中在最大後驗概率 周圍。如果我們想迫使模型向最大似然估計  的方向移動,可以用 其中 可解釋為逆溫度,在擴散模型研究中常稱其為制導尺度(guidance scale)。較高的 會迫使模型在更靠近 的分布中採樣。這通常會提高生成圖像的品質[7]

這可以簡單地通過SGLD實現,即 

無分類指導器

編輯

如果我們沒有分類器 ,我們仍可以從圖像模型本身提取一個:[8] 這樣的模型通常要在訓練時提供  ,這樣才能讓它同時為  建模。

這是GLIDE[9]DALL-E[10]和Google Imagen[11]等系統的重要組成部分。

另見

編輯

閱讀更多

編輯

參考文獻

編輯
  1. ^ 1.0 1.1 Ho, Jonathan; Jain, Ajay; Abbeel, Pieter. Denoising Diffusion Probabilistic Models. 2020-06-19. arXiv:2006.11239 . 
  2. ^ 2.0 2.1 Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben. Score-Based Generative Modeling through Stochastic Differential Equations. 2021-02-10. arXiv:2011.13456  [cs.LG]. 
  3. ^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining. Vector Quantized Diffusion Model for Text-to-Image Synthesis. 2021. arXiv:2111.14822  [cs.CV]. 
  4. ^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak. Diffusion models in vision: A survey. 2022. arXiv:2209.04747  [cs.CV]. 
  5. ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya. Deep Unsupervised Learning using Nonequilibrium Thermodynamics (PDF). Proceedings of the 32nd International Conference on Machine Learning (PMLR). 2015-06-01, 37: 2256–2265 [2023-02-24]. (原始內容存檔 (PDF)於2023-04-05) (英語). 
  6. ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022. arXiv:2204.06125  [cs.CV]. 
  7. ^ Dhariwal, Prafulla; Nichol, Alex. Diffusion Models Beat GANs on Image Synthesis. 2021-06-01. arXiv:2105.05233  [cs.LG]. 
  8. ^ Ho, Jonathan; Salimans, Tim. Classifier-Free Diffusion Guidance. 2022-07-25. arXiv:2207.12598  [cs.LG]. 
  9. ^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2022-03-08. arXiv:2112.10741  [cs.CV]. 
  10. ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022-04-12. arXiv:2204.06125  [cs.CV]. 
  11. ^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022-05-23. arXiv:2205.11487  [cs.CV].