AIGC動態歡迎閱讀
原標題:爆火Sora背后的技術,一文綜述擴散模型的最新發展方向
關鍵字:模型,數據,圖像,過程,文本
文章來源:機器之心
內容字數:11843字
內容摘要:
機器之心專欄
機器之心編輯部為了使機器具有人類的想象力,深度生成模型取得了重大進展。這些模型能創造逼真的樣本,尤其是擴散模型,在多個領域表現出色。擴散模型解決了其他模型的限制,如 VAEs 的后驗分布對齊問題、GANs 的不穩定性、EBMs 的計算量大和 NFs 的網絡約束問題。因此,擴散模型在計算機視覺、自然語言處理等方面備受關注。
擴散模型由兩個過程組成:前向過程和反向過程。前向過程把數據轉化為簡單的先驗分布,而反向過程則逆轉這一變化,用訓練好的神經網絡模擬微分方程來生成數據。與其他模型相比,擴散模型提供了更穩定的訓練目標和更好的生成效果。不過,擴散模型的采樣過程伴隨反復推理求值。這一過程面臨著不穩定性、高維計算需求和復雜的似然性優化等挑戰。研究者為此提出了多種方案,如改進 ODE/SDE 解算器和采取模型蒸餾策略來加速采樣,以及新的前向過程來提高穩定性和降低維度。
近期,港中文聯合西湖大學、MIT、之江實驗室,在 IEEE TKDE 上發表的題為《A Survey on Generative Diffusion Models》的綜述論文從四個方面討論了擴散模型的最新進展:采樣加速
原文鏈接:爆火Sora背后的技術,一文綜述擴散模型的最新發展方向
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...