靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開(kāi)源81K高質(zhì)量數(shù)據(jù)集

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開(kāi)源81K高質(zhì)量數(shù)據(jù)集
關(guān)鍵字：模型,物體,內(nèi)容,視頻,數(shù)據(jù)
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

Diffusion4D團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI只需幾分鐘、一張圖或一句話，就能完成時(shí)空一致的4D內(nèi)容生成。
注意看，這些生成的3D物體，是帶有動(dòng)作變化的那種。也就是在3D物體的基礎(chǔ)之上，增加了時(shí)間維度的變化。
這一成果，名為Diffusion4D，來(lái)自多倫多大學(xué)、北京交通大學(xué)、德克薩斯大學(xué)奧斯汀分校和劍橋大學(xué)團(tuán)隊(duì)。
具體而言，Diffusion4D整理篩選了約81K個(gè)4D assets，利用8卡GPU共16線程，花費(fèi)超30天渲染得到了約400萬(wàn)張圖片，包括靜態(tài)3D物體環(huán)拍、動(dòng)態(tài)3D物體環(huán)拍，以及動(dòng)態(tài)3D物體前景視頻。
作者表示，該方法是首個(gè)利用大規(guī)模數(shù)據(jù)集，訓(xùn)練視頻生成模型生成4D內(nèi)容的框架，目前項(xiàng)目已經(jīng)開(kāi)源所有渲染的4D數(shù)據(jù)集以及渲染腳本。
研究背景過(guò)去的方法采用了2D、3D預(yù)訓(xùn)練模型在4D（動(dòng)態(tài)3D）內(nèi)容生成上取得了一定的突破，但這些方法主要依賴于分?jǐn)?shù)蒸餾采樣（SDS）或者生成的偽標(biāo)簽進(jìn)行優(yōu)化，同時(shí)利用多個(gè)預(yù)訓(xùn)練模型獲得監(jiān)督不可避免的導(dǎo)致時(shí)空上的不一致性以及優(yōu)化速度慢的問(wèn)題。
4D內(nèi)容生成的一致性包含了時(shí)間上和空間上的一致性，它們分別在視頻生成模型和多視圖生成

原文鏈接：靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開(kāi)源81K高質(zhì)量數(shù)據(jù)集