爆火Sora背后的技術,一文綜述擴散模型的最新發(fā)展方向

AIGC動態(tài)歡迎閱讀
原標題:爆火Sora背后的技術,一文綜述擴散模型的最新發(fā)展方向
關鍵字:模型,數(shù)據(jù),圖像,過程,文本
文章來源:機器之心
內(nèi)容字數(shù):11843字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部為了使機器具有人類的想象力,深度生成模型取得了重大進展。這些模型能創(chuàng)造逼真的樣本,尤其是擴散模型,在多個領域表現(xiàn)出色。擴散模型解決了其他模型的限制,如 VAEs 的后驗分布對齊問題、GANs 的不穩(wěn)定性、EBMs 的計算量大和 NFs 的網(wǎng)絡約束問題。因此,擴散模型在計算機視覺、自然語言處理等方面?zhèn)涫荜P注。
擴散模型由兩個過程組成:前向過程和反向過程。前向過程把數(shù)據(jù)轉(zhuǎn)化為簡單的先驗分布,而反向過程則逆轉(zhuǎn)這一變化,用訓練好的神經(jīng)網(wǎng)絡模擬微分方程來生成數(shù)據(jù)。與其他模型相比,擴散模型提供了更穩(wěn)定的訓練目標和更好的生成效果。不過,擴散模型的采樣過程伴隨反復推理求值。這一過程面臨著不穩(wěn)定性、高維計算需求和復雜的似然性優(yōu)化等挑戰(zhàn)。研究者為此提出了多種方案,如改進 ODE/SDE 解算器和采取模型蒸餾策略來加速采樣,以及新的前向過程來提高穩(wěn)定性和降低維度。
近期,港中文聯(lián)合西湖大學、MIT、之江實驗室,在 IEEE TKDE 上發(fā)表的題為《A Survey on Generative Diffusion Models》的綜述論文從四個方面討論了擴散模型的最新進展:采樣加速
原文鏈接:爆火Sora背后的技術,一文綜述擴散模型的最新發(fā)展方向
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺

粵公網(wǎng)安備 44011502001135號