AIGC動態歡迎閱讀
原標題:北大字節開辟圖像生成新范式!超越Sora核心組件DiT,不再預測下一個token
關鍵字:字節跳動,模型,圖像,分辨率,峰會
文章來源:量子位
內容字數:3953字
內容摘要:
魚羊 發自 凹非寺量子位 | 公眾號 QbitAI北大和字節聯手搞了個大的:
提出圖像生成新范式,從預測下一個token變成預測下一級分辨率,效果超越Sora核心組件Diffusion Transformer(DiT)。
并且代碼開源,短短幾天已經攬下1.3k標星,登上GitHub趨勢榜。
具體是個什么效果?
實驗數據上,這個名為VAR(Visual Autoregressive Modeling)的新方法不僅圖像生成質量超過DiT等傳統SOTA,推理速度也提高了20+倍。
這也是自回歸模型首次在圖像生成領域擊敗DiT。
直觀感受上,話不多說,直接看圖:
值得一提的是,研究人員還在VAR上,觀察到了大語言模型同款的Scaling Laws和零樣本任務泛化。
論文代碼上線,已經引發不少專業討論。
有網友表示有被驚到,頓時覺得其他擴散架構的論文有點索然無味。
還有人認為,這是一種通向Sora的更便宜的潛在途徑,計算成本可降低一個乃至多個數量級。
預測下一級分辨率簡單來說,VAR的核心創新,就是用預測下一級分辨率,替代了預測下一個token的傳統自回歸方法。
VAR的訓練分為兩個階段。
第一
原文鏈接:北大字節開辟圖像生成新范式!超越Sora核心組件DiT,不再預測下一個token
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...