北大字節(jié)開(kāi)辟圖像生成新范式!超越Sora核心組件DiT,不再預(yù)測(cè)下一個(gè)token
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:北大字節(jié)開(kāi)辟圖像生成新范式!超越Sora核心組件DiT,不再預(yù)測(cè)下一個(gè)token
關(guān)鍵字:字節(jié)跳動(dòng),模型,圖像,分辨率,峰會(huì)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3953字
內(nèi)容摘要:
魚(yú)羊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI北大和字節(jié)聯(lián)手搞了個(gè)大的:
提出圖像生成新范式,從預(yù)測(cè)下一個(gè)token變成預(yù)測(cè)下一級(jí)分辨率,效果超越Sora核心組件Diffusion Transformer(DiT)。
并且代碼開(kāi)源,短短幾天已經(jīng)攬下1.3k標(biāo)星,登上GitHub趨勢(shì)榜。
具體是個(gè)什么效果?
實(shí)驗(yàn)數(shù)據(jù)上,這個(gè)名為VAR(Visual Autoregressive Modeling)的新方法不僅圖像生成質(zhì)量超過(guò)DiT等傳統(tǒng)SOTA,推理速度也提高了20+倍。
這也是自回歸模型首次在圖像生成領(lǐng)域擊敗DiT。
直觀感受上,話不多說(shuō),直接看圖:
值得一提的是,研究人員還在VAR上,觀察到了大語(yǔ)言模型同款的Scaling Laws和零樣本任務(wù)泛化。
論文代碼上線,已經(jīng)引發(fā)不少專業(yè)討論。
有網(wǎng)友表示有被驚到,頓時(shí)覺(jué)得其他擴(kuò)散架構(gòu)的論文有點(diǎn)索然無(wú)味。
還有人認(rèn)為,這是一種通向Sora的更便宜的潛在途徑,計(jì)算成本可降低一個(gè)乃至多個(gè)數(shù)量級(jí)。
預(yù)測(cè)下一級(jí)分辨率簡(jiǎn)單來(lái)說(shuō),VAR的核心創(chuàng)新,就是用預(yù)測(cè)下一級(jí)分辨率,替代了預(yù)測(cè)下一個(gè)token的傳統(tǒng)自回歸方法。
VAR的訓(xùn)練分為兩個(gè)階段。
第一
原文鏈接:北大字節(jié)開(kāi)辟圖像生成新范式!超越Sora核心組件DiT,不再預(yù)測(cè)下一個(gè)token
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破