AIGC動態歡迎閱讀
原標題:詳解Latte:去年底上線的全球首個開源文生視頻DiT
關鍵字:模型,視頻,變體,時空,模塊
文章來源:機器之心
內容字數:6971字
內容摘要:
機器之心專欄
機器之心編輯部隨著 Sora 的成功發布,視頻 DiT 模型得到了大量的關注和討論。設計穩定的超大規模神經網絡一直是視覺生成領域的研究重點。DiT [1] 的成功為圖像生成的規?;峁┝丝赡苄?。
然而,由于視頻數據的高度結構化與復雜性,如何將 DiT 擴展到視頻生成領域卻是一個挑戰,來自上海人工智能實驗室的研究團隊聯合其他機構通過大規模的實驗回答了這個問題。
早在去年 11 月,該團隊就已經開源了一款與 Sora 技術相似的自研模型:Latte。作為全球首個開源文生視頻 DiT,Latte 受到了廣泛關注,并且模型設計被眾多開源框架所使用與參考,如 Open-Sora Plan (PKU) 和 Open-Sora (ColossalAI)。開源鏈接:https://github.com/Vchitect/Latte
項目主頁:https://maxin-cn.github.io/latte_project/
論文鏈接:https://arxiv.org/pdf/2401.03048v1.pdf
先來看下Latte的視頻生成效果。方法介紹
總體上,Latte 包含兩個主要模
原文鏈接:詳解Latte:去年底上線的全球首個開源文生視頻DiT
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...