性能不輸SOTA,計算量僅DiT一半!T2X任務(wù)新范式來了 | 中山大學(xué)&360 AI Research
AIGC動態(tài)歡迎閱讀
原標題:性能不輸SOTA,計算量僅DiT一半!T2X任務(wù)新范式來了 | 中山大學(xué)&360 AI Research
關(guān)鍵字:復(fù)雜度,團隊,任務(wù),注意力,圖像
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
Qihoo-T2X團隊 投稿量子位 | 公眾號 QbitAI性能不輸SOTA模型,計算開銷卻更低了——
中山大學(xué)和360 AI Research聯(lián)合推出PT-DiT,同參數(shù)規(guī)模下,計算量僅為DiT的51.4%,Lumina-Next的17.5%。
具體來說,PT-DiT基于Proxy token機制,能用于文生圖(Qihoo-T2I)、文生視頻(Qihoo-T2V)和文生多視圖(Qihoo-T2MV)等多種任務(wù)。
(Qihoo-T2X指文本到任意視覺任務(wù))
話不多說,我們直接看幾個最終生成效果,文生圖be like:
接下來是今年火熱的視頻生成,prompt如下:
Sunset cityscape with spires, buildings, clouds, warm glow, and trees.(夕陽下的城市景觀,有尖塔、建筑物、云朵、溫暖的光芒和樹木。)
最后是多視圖生成,寶劍、小黃鴨等任意素材均可實現(xiàn)轉(zhuǎn)3D效果。
目前該研究已經(jīng)開放了論文、項目主頁和代碼倉庫,即將開源。
研究動機當(dāng)前,基于Diffusion Transformer的模型(Sora , Vidu, Flux等
原文鏈接:性能不輸SOTA,計算量僅DiT一半!T2X任務(wù)新范式來了 | 中山大學(xué)&360 AI Research
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: