北大字節開辟圖像生成新范式！超越Sora核心組件DiT，不再預測下一個token

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：北大字節開辟圖像生成新范式！超越Sora核心組件DiT，不再預測下一個token
關鍵字：字節跳動,模型,圖像,分辨率,峰會
文章來源：量子位
內容字數：3953字

內容摘要：

魚羊發自凹非寺量子位 | 公眾號 QbitAI北大和字節聯手搞了個大的：
提出圖像生成新范式，從預測下一個token變成預測下一級分辨率，效果超越Sora核心組件Diffusion Transformer（DiT）。
并且代碼開源，短短幾天已經攬下1.3k標星，登上GitHub趨勢榜。
具體是個什么效果？
實驗數據上，這個名為VAR（Visual Autoregressive Modeling）的新方法不僅圖像生成質量超過DiT等傳統SOTA，推理速度也提高了20+倍。
這也是自回歸模型首次在圖像生成領域擊敗DiT。
直觀感受上，話不多說，直接看圖：
值得一提的是，研究人員還在VAR上，觀察到了大語言模型同款的Scaling Laws和零樣本任務泛化。
論文代碼上線，已經引發不少專業討論。
有網友表示有被驚到，頓時覺得其他擴散架構的論文有點索然無味。
還有人認為，這是一種通向Sora的更便宜的潛在途徑，計算成本可降低一個乃至多個數量級。
預測下一級分辨率簡單來說，VAR的核心創新，就是用預測下一級分辨率，替代了預測下一個token的傳統自回歸方法。
VAR的訓練分為兩個階段。
第一

原文鏈接：北大字節開辟圖像生成新范式！超越Sora核心組件DiT，不再預測下一個token