幾行代碼穩定UNet ! 中山大學等提出ScaleLong擴散模型：從質疑Scaling到成為Scaling

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：幾行代碼穩定UNet ! 中山大學等提出ScaleLong擴散模型：從質疑Scaling到成為Scaling
關鍵字：模型,系數,梯度,結構,特征
文章來源：新智元
內容字數：6561字

內容摘要：

新智元報道編輯：LRS 好困
【新智元導讀】本文提出了擴散模型中UNet的long skip connection的scaling操作可以有助于模型穩定訓練的分析，目前已被NeurIPS 2023錄用。同時，該分析還可以解釋擴散模型中常用但未知原理的1/√2 scaling操作能加速訓練的現象。在標準的UNet結構中，long skip connection上的scaling系數一般為1。
然而，在一些著名的擴散模型工作中，比如Imagen， Score-based generative model，以及SR3等等，它們都設置了，并發現這樣的設置可以有效加速擴散模型的訓練。質疑Scaling然而，Imagen等模型對skip connection的Scaling操作在原論文中并沒有具體的分析，只是說這樣設置有助于加速擴散模型的訓練。
首先，這種經驗上的展示，讓我們并搞不清楚到底這種設置發揮了什么作用？
另外，我們也不清楚是否只能設置，還是說可以使用其他的常數？
不同位置的skip connection的「地位」一樣嗎，為什么使用一樣的常數？
對此，作者有非常多的問號……理解Scali

原文鏈接：幾行代碼穩定UNet ! 中山大學等提出ScaleLong擴散模型：從質疑Scaling到成為Scaling