DiT架構(gòu)大一統(tǒng)：一個(gè)框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：DiT架構(gòu)大一統(tǒng)：一個(gè)框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩
關(guān)鍵字：圖像,研究者,文本,模型,分辨率
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：10413字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：杜偉、大盤雞基于 Diffusion Transformer（DiT）又迎來一大力作「Flag-DiT」，這次要將圖像、視頻、音頻和 3D「一網(wǎng)打盡」。今年 2 月初，Sora 的發(fā)布讓 AI 社區(qū)更加看到了基礎(chǔ)擴(kuò)散模型的潛力。連同以往出現(xiàn)的 Stable Diffusion、PixArt-α 和 PixArt-Σ，這些模型在生成真實(shí)圖像和視頻方面取得了顯著的成功。這意味著開始了從經(jīng)典 U-Net 架構(gòu)到基于 Transformer 的擴(kuò)散主干架構(gòu)的范式轉(zhuǎn)變。
值得注意的是，通過這種改進(jìn)的架構(gòu)，Sora 和 Stable Diffusion 3 可以生成任意分辨率的樣本，并表現(xiàn)出對(duì) scaling 定律的嚴(yán)格遵守，即增加參數(shù)大小可以實(shí)現(xiàn)更好的結(jié)果。
不過，推出者們只對(duì)自家模型的設(shè)計(jì)選擇提供有限的指導(dǎo)，并且缺乏詳細(xì)的實(shí)現(xiàn)說明和公開的預(yù)訓(xùn)練檢查點(diǎn)，限制了它們?cè)谏鐓^(qū)使用和復(fù)刻方面的效用。并且，這些方法是針對(duì)特定任務(wù)（例如圖像或視頻生成任務(wù)）量身定制的，這阻礙了潛在的跨模態(tài)適應(yīng)性。
為了彌補(bǔ)這些差距，上海 AI Lab、港中文和英偉達(dá)的研究者聯(lián)合推出了 Lumina-T2X

原文鏈接：DiT架構(gòu)大一統(tǒng)：一個(gè)框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩