詳解Latte:去年底上線的全球首個開源文生視頻DiT
AIGC動態(tài)歡迎閱讀
原標(biāo)題:詳解Latte:去年底上線的全球首個開源文生視頻DiT
關(guān)鍵字:模型,視頻,變體,時空,模塊
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6971字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部隨著 Sora 的成功發(fā)布,視頻 DiT 模型得到了大量的關(guān)注和討論。設(shè)計穩(wěn)定的超大規(guī)模神經(jīng)網(wǎng)絡(luò)一直是視覺生成領(lǐng)域的研究重點。DiT [1] 的成功為圖像生成的規(guī)模化提供了可能性。
然而,由于視頻數(shù)據(jù)的高度結(jié)構(gòu)化與復(fù)雜性,如何將 DiT 擴(kuò)展到視頻生成領(lǐng)域卻是一個挑戰(zhàn),來自上海人工智能實驗室的研究團(tuán)隊聯(lián)合其他機(jī)構(gòu)通過大規(guī)模的實驗回答了這個問題。
早在去年 11 月,該團(tuán)隊就已經(jīng)開源了一款與 Sora 技術(shù)相似的自研模型:Latte。作為全球首個開源文生視頻 DiT,Latte 受到了廣泛關(guān)注,并且模型設(shè)計被眾多開源框架所使用與參考,如 Open-Sora Plan (PKU) 和 Open-Sora (ColossalAI)。開源鏈接:https://github.com/Vchitect/Latte
項目主頁:https://maxin-cn.github.io/latte_project/
論文鏈接:https://arxiv.org/pdf/2401.03048v1.pdf
先來看下Latte的視頻生成效果。方法介紹
總體上,Latte 包含兩個主要模
原文鏈接:詳解Latte:去年底上線的全球首個開源文生視頻DiT
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺