AIGC動態歡迎閱讀
原標題:性能不輸SOTA,計算量僅DiT一半!T2X任務新范式來了 | 中山大學&360 AI Research
關鍵字:復雜度,團隊,任務,注意力,圖像
文章來源:量子位
內容字數:0字
內容摘要:
Qihoo-T2X團隊 投稿量子位 | 公眾號 QbitAI性能不輸SOTA模型,計算開銷卻更低了——
中山大學和360 AI Research聯合推出PT-DiT,同參數規模下,計算量僅為DiT的51.4%,Lumina-Next的17.5%。
具體來說,PT-DiT基于Proxy token機制,能用于文生圖(Qihoo-T2I)、文生視頻(Qihoo-T2V)和文生多視圖(Qihoo-T2MV)等多種任務。
(Qihoo-T2X指文本到任意視覺任務)
話不多說,我們直接看幾個最終生成效果,文生圖be like:
接下來是今年火熱的視頻生成,prompt如下:
Sunset cityscape with spires, buildings, clouds, warm glow, and trees.(夕陽下的城市景觀,有尖塔、建筑物、云朵、溫暖的光芒和樹木。)
最后是多視圖生成,寶劍、小黃鴨等任意素材均可實現轉3D效果。
目前該研究已經開放了論文、項目主頁和代碼倉庫,即將開源。
研究動機當前,基于Diffusion Transformer的模型(Sora , Vidu, Flux等
原文鏈接:性能不輸SOTA,計算量僅DiT一半!T2X任務新范式來了 | 中山大學&360 AI Research
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...