AIGC動態歡迎閱讀
原標題:DiT架構大一統:一個框架集成圖像、視頻、音頻和3D生成,可編輯、能試玩
關鍵字:圖像,研究者,文本,模型,分辨率
文章來源:機器之心
內容字數:10413字
內容摘要:
機器之心報道
編輯:杜偉、大盤雞基于 Diffusion Transformer(DiT)又迎來一大力作「Flag-DiT」,這次要將圖像、視頻、音頻和 3D「一網打盡」。今年 2 月初,Sora 的發布讓 AI 社區更加看到了基礎擴散模型的潛力。連同以往出現的 Stable Diffusion、PixArt-α 和 PixArt-Σ,這些模型在生成真實圖像和視頻方面取得了顯著的成功。這意味著開始了從經典 U-Net 架構到基于 Transformer 的擴散主干架構的范式轉變。
值得注意的是,通過這種改進的架構,Sora 和 Stable Diffusion 3 可以生成任意分辨率的樣本,并表現出對 scaling 定律的嚴格遵守,即增加參數大小可以實現更好的結果。
不過,推出者們只對自家模型的設計選擇提供有限的指導,并且缺乏詳細的實現說明和公開的預訓練檢查點,限制了它們在社區使用和復刻方面的效用。并且,這些方法是針對特定任務(例如圖像或視頻生成任務)量身定制的,這阻礙了潛在的跨模態適應性。
為了彌補這些差距,上海 AI Lab、港中文和英偉達的研究者聯合推出了 Lumina-T2X
原文鏈接:DiT架構大一統:一個框架集成圖像、視頻、音頻和3D生成,可編輯、能試玩
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...