擴散模型

機器學習中，擴散模型或擴散概率模型是一類潛變量模型，是用變分估計訓練的馬爾可夫鏈。^[1]擴散模型的目標是通過對數據點在潛空間中的擴散方式進行建模，來學習數據集的潛結構。計算機視覺中，這意味著通過學習逆擴散過程訓練神經網絡，使其能對疊加了高斯噪聲的圖像進行去噪。^[2]^[3]計算機視覺中使用通用擴散模型框架的3個例子是去噪擴散概率模型、噪聲條件得分網絡和隨機微分方程。^[4]

擴散模型是在2015年提出的，其動機來自非平衡態熱力學。^[5]

擴散模型可以應用於各種任務，如圖像去噪、圖像修復、超解析度成像、圖像生成等等。例如，一個圖像生成模型，經過對自然圖像的擴散過程的反轉訓練之後，可從一張完全隨機的噪聲圖像開始逐步生成新的自然圖像。比較近的例子有2022年4月13日OpenAI公布的文生圖模型DALL-E。它將擴散模型用於模型的先驗解釋器和產生最終圖像的解碼器。^[6]

數學原理

於所有圖像的空間中生成一張圖像

考慮圖像生成問題。令 $x$ 代表一張圖，令 $p(x)$ 為在所有可能圖像上的機率分布。若有 $p(x)$ 本身，便可以肯定地說給定的一張圖的機率有多大。但這在一般情況下是難以解決的。

大多數時候，我們並不想知道某個圖像的絕對機率，相反，我們通常只想知道某個圖像與它的周圍相比，機率有多大：一張貓的圖像與它的小變體相比，機率哪個大？如果圖像里有一根、兩根或三根鬍鬚，或者加入了一些高斯噪聲，機率會更大嗎？

因此，我們實際上對 $p(x)$ 本身不感興趣，而對 $\nabla _{x}\ln p(x)$ 感興趣。這有兩個效果：

其一，我們不再需要標準化 $p(x)$ ，而是可以用任何 ${\tilde {p}}(x)=Cp(x)$ ，其中 $C=\int {\tilde {p}}(x)dx>0$ 是任意常數，我們不需要去關心它。
其二，我們正在比較 $p(x)$ 的鄰居 $p(x+dx)$ ，通過 ${\frac {p(x)}{p(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$

令分數函數為 $s(x):=\nabla _{x}\ln p(x)$ ，然後考慮我們能對 $s(x)$ 做什麼。

實際上， $s(x)$ 允許我們用隨機梯度朗之萬動力學從 $p(x)$ 中取樣，這本質上是馬爾可夫鏈蒙特卡洛的無限小版本。^[2]

學習分數函數

分數函數可通過加噪-去噪學習。^[1]

主要變體

分類指導器

假設我們希望不是從整個圖像的分布中取樣，而是以圖像描述為條件取樣。我們不想從一般的圖像中取樣，而是從符合描述「紅眼睛的黑貓」的圖片中取樣。一般來說，我們想從分布 $p(x|y)$ 中取樣，其中 $x$ 的範圍是圖像， $y$ 的範圍是圖像的類別（對y而言，「紅眼黑貓」的描述過於精細，「貓」又過於模糊）。

從噪聲信道模型的角度來看，我們可以將這一過程理解如下：為生成可描述為 $y$ 的圖像 $x$ ，我們設想請求者腦海中真有一張圖像 $x$ ，但它經過多次加噪，出來的是毫無意義可言的亂碼，也就是 $y$ 。這樣一來圖像生成只不過是推斷出請求者心中的 $x$ 是什麼。

換句話說，有條件的圖像生成只是「從文本語言翻譯成圖像語言」。之後，像在噪聲信道模型中一樣，我們可以用貝葉斯定理得到 $p(x|y)\propto p(y|x)p(x)$ 也就是說，如果我們有一個包含所有圖像空間的好模型，以及一個圖像到類別的好翻譯器，我們就能「免費」得到一個類別到圖像的翻譯器，也就是文本到圖像生成模型。

SGLD使用 $\nabla _{x}\ln p(x|y)=\nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$ 其中 $\nabla _{x}\ln p(x)$ 是分數函數，如上所述進行訓練，用可微圖像分類器便可以找到 $\nabla _{x}\ln p(y|x)$ 。

溫度

分類器引導的擴散模型會從 $p(x|y)$ 中取樣，它集中在最大後驗概率 $\arg \max _{x}p(x|y)$ 周圍。如果我們想迫使模型向最大似然估計 $\arg \max _{x}p(y|x)$ 的方向移動，可以用 $p_{\beta }(x|y)\propto p(y|x)^{\beta }p(x)$ 其中 $\beta >0$ 可解釋為逆溫度，在擴散模型研究中常稱其為制導尺度（guidance scale）。較高的 $\beta$ 會迫使模型在更靠近 $\arg \max _{x}p(y|x)$ 的分布中採樣。這通常會提高生成圖像的品質。^[7]

這可以簡單地通過SGLD實現，即 $\nabla _{x}\ln p_{\beta }(x|y)=\beta \nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$

無分類指導器

如果我們沒有分類器 $p(y|x)$ ，我們仍可以從圖像模型本身提取一個：^[8] $\nabla _{x}\ln p_{\beta }(x|y)=(1-\beta )\nabla _{x}\ln p(x)+\beta \nabla _{x}\ln p(x|y)$ 這樣的模型通常要在訓練時提供 $(x,y)$ 和 $(x,None)$ ，這樣才能讓它同時為 $\nabla _{x}\ln p(x|y)$ 和 $\nabla _{x}\ln p(x)$ 建模。

這是GLIDE^[9]、DALL-E^[10]和Google Imagen^[11]等系統的重要組成部分。

另見

閱讀更多

Guidance: a cheat code for diffusion models （頁面存檔備份，存於網際網路檔案館）. Good overview up to 2022.

參考文獻

^ ^1.0 ^1.1 Ho, Jonathan; Jain, Ajay; Abbeel, Pieter. Denoising Diffusion Probabilistic Models. 2020-06-19. arXiv:2006.11239  .
^ ^2.0 ^2.1 Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben. Score-Based Generative Modeling through Stochastic Differential Equations. 2021-02-10. arXiv:2011.13456  [cs.LG].
^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining. Vector Quantized Diffusion Model for Text-to-Image Synthesis. 2021. arXiv:2111.14822  [cs.CV].
^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak. Diffusion models in vision: A survey. 2022. arXiv:2209.04747  [cs.CV].
^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya. Deep Unsupervised Learning using Nonequilibrium Thermodynamics (PDF). Proceedings of the 32nd International Conference on Machine Learning (PMLR). 2015-06-01, 37: 2256–2265 [2023-02-24]. （原始內容存檔 (PDF)於2023-04-05）（英語）.
^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022. arXiv:2204.06125  [cs.CV].
^ Dhariwal, Prafulla; Nichol, Alex. Diffusion Models Beat GANs on Image Synthesis. 2021-06-01. arXiv:2105.05233  [cs.LG].
^ Ho, Jonathan; Salimans, Tim. Classifier-Free Diffusion Guidance. 2022-07-25. arXiv:2207.12598  [cs.LG].
^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2022-03-08. arXiv:2112.10741  [cs.CV].
^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022-04-12. arXiv:2204.06125  [cs.CV].
^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022-05-23. arXiv:2205.11487  [cs.CV].

[:0-1] 1.0 ^1.1 Ho, Jonathan; Jain, Ajay; Abbeel, Pieter. Denoising Diffusion Probabilistic Models. 2020-06-19. arXiv:2006.11239  .

[:1-2] 2.0 ^2.1 Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben. Score-Based Generative Modeling through Stochastic Differential Equations. 2021-02-10. arXiv:2011.13456  [cs.LG].

[3] Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining. Vector Quantized Diffusion Model for Text-to-Image Synthesis. 2021. arXiv:2111.14822  [cs.CV].

[4] Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak. Diffusion models in vision: A survey. 2022. arXiv:2209.04747  [cs.CV].

[5] Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya. Deep Unsupervised Learning using Nonequilibrium Thermodynamics (PDF). Proceedings of the 32nd International Conference on Machine Learning (PMLR). 2015-06-01, 37: 2256–2265 [2023-02-24]. （原始內容存檔 (PDF)於2023-04-05）（英語）.

[6] Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022. arXiv:2204.06125  [cs.CV].

[7] Dhariwal, Prafulla; Nichol, Alex. Diffusion Models Beat GANs on Image Synthesis. 2021-06-01. arXiv:2105.05233  [cs.LG].

[8] Ho, Jonathan; Salimans, Tim. Classifier-Free Diffusion Guidance. 2022-07-25. arXiv:2207.12598  [cs.LG].

[9] Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2022-03-08. arXiv:2112.10741  [cs.CV].

[10] Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022-04-12. arXiv:2204.06125  [cs.CV].

[11] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022-05-23. arXiv:2205.11487  [cs.CV].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]