擴(kuò)散模型訓(xùn)練方法一直錯(cuò)了!謝賽寧:Representation matters

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:擴(kuò)散模型訓(xùn)練方法一直錯(cuò)了!謝賽寧:Representation matters
關(guān)鍵字:表征,模型,報(bào)告,編碼器,視覺
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda、小舟Representation matters. Representation matters. Representation matters.是什么讓紐約大學(xué)著名研究者謝賽寧三連呼喊「Representation matters」?他表示:「我們可能一直都在用錯(cuò)誤的方法訓(xùn)練擴(kuò)散模型。」即使對(duì)生成模型而言,表征也依然有用。基于此,他們提出了 REPA,即表征對(duì)齊技術(shù),其能讓「訓(xùn)練擴(kuò)散 Transformer 變得比你想象的更簡單。」Yann LeCun 也對(duì)他們的研究表示了認(rèn)可:「我們知道,當(dāng)使用自監(jiān)督學(xué)習(xí)訓(xùn)練視覺編碼器時(shí),使用具有重構(gòu)損失的解碼器的效果遠(yuǎn)不如使用具有特征預(yù)測(cè)損失和崩潰預(yù)防機(jī)制的聯(lián)合嵌入架構(gòu)。這篇來自紐約大學(xué) @sainingxie 的論文表明,即使你只對(duì)生成像素感興趣(例如使用擴(kuò)散 Transformer 生成漂亮圖片),也應(yīng)該包含特征預(yù)測(cè)損失,以便解碼器的內(nèi)部表征可以根據(jù)預(yù)訓(xùn)練的視覺編碼器(例如 DINOv2)預(yù)測(cè)特征。」我們知道,在生成高維視覺數(shù)據(jù)方面,基于去噪的生成模型(如擴(kuò)展模型和基于流的模型)的表現(xiàn)非常好,已經(jīng)得到了廣泛應(yīng)用
原文鏈接:擴(kuò)散模型訓(xùn)練方法一直錯(cuò)了!謝賽寧:Representation matters
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)