幾行代碼穩(wěn)定UNet ! 中山大學(xué)等提出ScaleLong擴(kuò)散模型:從質(zhì)疑Scaling到成為Scaling

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:幾行代碼穩(wěn)定UNet ! 中山大學(xué)等提出ScaleLong擴(kuò)散模型:從質(zhì)疑Scaling到成為Scaling
關(guān)鍵字:模型,系數(shù),梯度,結(jié)構(gòu),特征
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6561字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS 好困
【新智元導(dǎo)讀】本文提出了擴(kuò)散模型中UNet的long skip connection的scaling操作可以有助于模型穩(wěn)定訓(xùn)練的分析,目前已被NeurIPS 2023錄用。同時(shí),該分析還可以解釋擴(kuò)散模型中常用但未知原理的1/√2 scaling操作能加速訓(xùn)練的現(xiàn)象。在標(biāo)準(zhǔn)的UNet結(jié)構(gòu)中,long skip connection上的scaling系數(shù)一般為1。
然而,在一些著名的擴(kuò)散模型工作中,比如Imagen, Score-based generative model,以及SR3等等,它們都設(shè)置了,并發(fā)現(xiàn)這樣的設(shè)置可以有效加速擴(kuò)散模型的訓(xùn)練。質(zhì)疑Scaling然而,Imagen等模型對(duì)skip connection的Scaling操作在原論文中并沒(méi)有具體的分析,只是說(shuō)這樣設(shè)置有助于加速擴(kuò)散模型的訓(xùn)練。
首先,這種經(jīng)驗(yàn)上的展示,讓我們并搞不清楚到底這種設(shè)置發(fā)揮了什么作用?
另外,我們也不清楚是否只能設(shè)置,還是說(shuō)可以使用其他的常數(shù)?
不同位置的skip connection的「地位」一樣嗎,為什么使用一樣的常數(shù)?
對(duì)此,作者有非常多的問(wèn)號(hào)……理解Scali
原文鏈接:幾行代碼穩(wěn)定UNet ! 中山大學(xué)等提出ScaleLong擴(kuò)散模型:從質(zhì)疑Scaling到成為Scaling
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)