DiT架構(gòu)大一統(tǒng):一個(gè)框架集成圖像、視頻、音頻和3D生成,可編輯、能試玩
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:DiT架構(gòu)大一統(tǒng):一個(gè)框架集成圖像、視頻、音頻和3D生成,可編輯、能試玩
關(guān)鍵字:圖像,研究者,文本,模型,分辨率
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10413字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:杜偉、大盤雞基于 Diffusion Transformer(DiT)又迎來一大力作「Flag-DiT」,這次要將圖像、視頻、音頻和 3D「一網(wǎng)打盡」。今年 2 月初,Sora 的發(fā)布讓 AI 社區(qū)更加看到了基礎(chǔ)擴(kuò)散模型的潛力。連同以往出現(xiàn)的 Stable Diffusion、PixArt-α 和 PixArt-Σ,這些模型在生成真實(shí)圖像和視頻方面取得了顯著的成功。這意味著開始了從經(jīng)典 U-Net 架構(gòu)到基于 Transformer 的擴(kuò)散主干架構(gòu)的范式轉(zhuǎn)變。
值得注意的是,通過這種改進(jìn)的架構(gòu),Sora 和 Stable Diffusion 3 可以生成任意分辨率的樣本,并表現(xiàn)出對(duì) scaling 定律的嚴(yán)格遵守,即增加參數(shù)大小可以實(shí)現(xiàn)更好的結(jié)果。
不過,推出者們只對(duì)自家模型的設(shè)計(jì)選擇提供有限的指導(dǎo),并且缺乏詳細(xì)的實(shí)現(xiàn)說明和公開的預(yù)訓(xùn)練檢查點(diǎn),限制了它們?cè)谏鐓^(qū)使用和復(fù)刻方面的效用。并且,這些方法是針對(duì)特定任務(wù)(例如圖像或視頻生成任務(wù))量身定制的,這阻礙了潛在的跨模態(tài)適應(yīng)性。
為了彌補(bǔ)這些差距,上海 AI Lab、港中文和英偉達(dá)的研究者聯(lián)合推出了 Lumina-T2X
原文鏈接:DiT架構(gòu)大一統(tǒng):一個(gè)框架集成圖像、視頻、音頻和3D生成,可編輯、能試玩
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)