性能不輸SOTA，計算量僅DiT一半！T2X任務(wù)新范式來了 | 中山大學(xué)&360 AI Research

AIGC動態(tài)歡迎閱讀

原標題：性能不輸SOTA，計算量僅DiT一半！T2X任務(wù)新范式來了 | 中山大學(xué)&360 AI Research
關(guān)鍵字：復(fù)雜度,團隊,任務(wù),注意力,圖像
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

Qihoo-T2X團隊投稿量子位 | 公眾號 QbitAI性能不輸SOTA模型，計算開銷卻更低了——
中山大學(xué)和360 AI Research聯(lián)合推出PT-DiT，同參數(shù)規(guī)模下，計算量僅為DiT的51.4%，Lumina-Next的17.5%。
具體來說，PT-DiT基于Proxy token機制，能用于文生圖（Qihoo-T2I）、文生視頻（Qihoo-T2V）和文生多視圖（Qihoo-T2MV）等多種任務(wù)。
（Qihoo-T2X指文本到任意視覺任務(wù)）
話不多說，我們直接看幾個最終生成效果，文生圖be like：
接下來是今年火熱的視頻生成，prompt如下：
Sunset cityscape with spires, buildings, clouds, warm glow, and trees.(夕陽下的城市景觀，有尖塔、建筑物、云朵、溫暖的光芒和樹木。)
最后是多視圖生成，寶劍、小黃鴨等任意素材均可實現(xiàn)轉(zhuǎn)3D效果。
目前該研究已經(jīng)開放了論文、項目主頁和代碼倉庫，即將開源。
研究動機當(dāng)前，基于Diffusion Transformer的模型（Sora , Vidu, Flux等

原文鏈接：性能不輸SOTA，計算量僅DiT一半！T2X任務(wù)新范式來了 | 中山大學(xué)&360 AI Research