AIGC動態歡迎閱讀
原標題:幾行代碼穩定UNet ! 中山大學等提出ScaleLong擴散模型:從質疑Scaling到成為Scaling
關鍵字:模型,系數,梯度,結構,特征
文章來源:新智元
內容字數:6561字
內容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】本文提出了擴散模型中UNet的long skip connection的scaling操作可以有助于模型穩定訓練的分析,目前已被NeurIPS 2023錄用。同時,該分析還可以解釋擴散模型中常用但未知原理的1/√2 scaling操作能加速訓練的現象。在標準的UNet結構中,long skip connection上的scaling系數一般為1。
然而,在一些著名的擴散模型工作中,比如Imagen, Score-based generative model,以及SR3等等,它們都設置了,并發現這樣的設置可以有效加速擴散模型的訓練。質疑Scaling然而,Imagen等模型對skip connection的Scaling操作在原論文中并沒有具體的分析,只是說這樣設置有助于加速擴散模型的訓練。
首先,這種經驗上的展示,讓我們并搞不清楚到底這種設置發揮了什么作用?
另外,我們也不清楚是否只能設置,還是說可以使用其他的常數?
不同位置的skip connection的「地位」一樣嗎,為什么使用一樣的常數?
對此,作者有非常多的問號……理解Scali
原文鏈接:幾行代碼穩定UNet ! 中山大學等提出ScaleLong擴散模型:從質疑Scaling到成為Scaling
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
相關文章
