何愷明謝賽寧解剖擴散模型，新作剛剛出爐

AIGC動態1年前 (2024)發布量子位

何愷明謝賽寧解剖擴散模型，新作剛剛出爐

AIGC動態歡迎閱讀

原標題：何愷明謝賽寧解剖擴散模型，新作剛剛出爐
關鍵字：模型,噪聲,表示,損失,編碼器
文章來源：量子位
內容字數：5727字

內容摘要：

編輯部發自凹非寺量子位 | 公眾號 QbitAICV大神何愷明，也來搞擴散模型（Diffusion Model）了！
大神最新論文剛剛掛上arXiv，還是熱乎的：解構擴散模型，提出一個高度簡化的新架構l-DAE（小寫的L）。
并且通過與何愷明在視覺自監督學習領域的代表作MAE（Masked Autoencoder）對比，更好地理解了擴散模型內部的工作原理。
不僅如此，這篇論文還發現在擴散模型中，去噪過程比擴散過程更重要。
這項工作陣容非常豪華，不僅有何愷明坐鎮，合著作者中還有紐約大學計算機科學助理教授、CV大牛謝賽寧。
以及曾和他共同發表ConvNeXT工作的劉壯——他同時是DenseNet的共同一作。
給擴散模型開刀團隊認為，盡管去噪擴散模型在生成任務上表現出色，但它們在表示學習方面的能力尚未得到充分探索。
為此，他們找到一個新穎的研究方法：
希望通過解構擴散模型，將其逐步轉化為類似于MAE的架構，以更深入地理解其在自監督學習中的表示學習能力。
先來一圖概括解構過程：
（如果你也覺得這個圖很眼熟，沒錯，就是謝賽寧在代表作ConvNeXT中使用的同款。）
以使用了VQGAN tok

原文鏈接：何愷明謝賽寧解剖擴散模型，新作剛剛出爐