爆火Sora背后的技術，一文綜述擴散模型的最新發展方向

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：爆火Sora背后的技術，一文綜述擴散模型的最新發展方向
關鍵字：模型,數據,圖像,過程,文本
文章來源：機器之心
內容字數：11843字

內容摘要：

機器之心專欄
機器之心編輯部為了使機器具有人類的想象力，深度生成模型取得了重大進展。這些模型能創造逼真的樣本，尤其是擴散模型，在多個領域表現出色。擴散模型解決了其他模型的限制，如 VAEs 的后驗分布對齊問題、GANs 的不穩定性、EBMs 的計算量大和 NFs 的網絡約束問題。因此，擴散模型在計算機視覺、自然語言處理等方面備受關注。
擴散模型由兩個過程組成：前向過程和反向過程。前向過程把數據轉化為簡單的先驗分布，而反向過程則逆轉這一變化，用訓練好的神經網絡模擬微分方程來生成數據。與其他模型相比，擴散模型提供了更穩定的訓練目標和更好的生成效果。不過，擴散模型的采樣過程伴隨反復推理求值。這一過程面臨著不穩定性、高維計算需求和復雜的似然性優化等挑戰。研究者為此提出了多種方案，如改進 ODE/SDE 解算器和采取模型蒸餾策略來加速采樣，以及新的前向過程來提高穩定性和降低維度。
近期，港中文聯合西湖大學、MIT、之江實驗室，在 IEEE TKDE 上發表的題為《A Survey on Generative Diffusion Models》的綜述論文從四個方面討論了擴散模型的最新進展：采樣加速

原文鏈接：爆火Sora背后的技術，一文綜述擴散模型的最新發展方向