Make U-Nets Great Again!北大&華為提出擴(kuò)散架構(gòu)U-DiT,六分之一算力即可超越DiT
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Make U-Nets Great Again!北大&華為提出擴(kuò)散架構(gòu)U-DiT,六分之一算力即可超越DiT
關(guān)鍵字:華為,模型,注意力,效果,架構(gòu)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.comSora 的發(fā)布讓廣大研究者及開發(fā)者深刻認(rèn)識(shí)到基于 Transformer 架構(gòu)擴(kuò)散模型的巨大潛力。作為這一類的代表性工作,DiT 模型拋棄了傳統(tǒng)的 U-Net 擴(kuò)散架構(gòu),轉(zhuǎn)而使用直筒型去噪模型。鑒于直筒型 DiT 在隱空間生成任務(wù)上效果出眾,后續(xù)的一些工作如 PixArt、SD3 等等也都不約而同地使用了直筒型架構(gòu)。
然而令人感到不解的是,U-Net 結(jié)構(gòu)是之前最常用的擴(kuò)散架構(gòu),在圖像空間和隱空間的生成效果均表現(xiàn)不俗;可以說 U-Net 的 inductive bias 在擴(kuò)散任務(wù)上已被廣泛證實(shí)是有效的。因此,北大和華為的研究者們產(chǎn)生了一個(gè)疑問:能否重新拾起 U-Net,將 U-Net 架構(gòu)和 Transformer 有機(jī)結(jié)合,使擴(kuò)散模型效果更上一層樓?帶著
原文鏈接:Make U-Nets Great Again!北大&華為提出擴(kuò)散架構(gòu)U-DiT,六分之一算力即可超越DiT
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: