AIGC動態歡迎閱讀
原標題:國內高校打造類Sora模型VDT,通用視頻擴散Transformer被ICLR 2024接收
關鍵字:視頻,模型,報告,解讀,條件
文章來源:機器之心
內容字數:8723字
內容摘要:
機器之心專欄
機器之心編輯部2 月 16 日,OpenAI Sora 的發布無疑標志著視頻生成領域的一次重大突破。Sora 基于 Diffusion Transformer 架構,和市面上大部分主流方法(由 2D Stable Diffusion 擴展)并不相同。
為什么 Sora 堅持使用 Diffusion Transformer,其中的原因從同時期發表在 ICLR 2024(VDT: General-purpose Video Diffusion Transformers via Mask Modeling)的論文可以窺見一二。這項工作由中國人民大學研究團隊主導,并與加州大學伯克利分校、香港大學等進行了合作,最早于 2023 年 5 月公開在 arXiv 網站。研究團隊提出了基于 Transformer 的 Video 統一生成框架 – Video Diffusion Transformer (VDT),并對采用 Transformer 架構的原因給出了詳細的解釋。論文標題:VDT: General-purpose Video Diffusion Transformers via
原文鏈接:國內高校打造類Sora模型VDT,通用視頻擴散Transformer被ICLR 2024接收
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...