靠Scaling Laws煉出4D版視頻生成模型,多倫多大學(xué)北交大等攜手開(kāi)源81K高質(zhì)量數(shù)據(jù)集
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:靠Scaling Laws煉出4D版視頻生成模型,多倫多大學(xué)北交大等攜手開(kāi)源81K高質(zhì)量數(shù)據(jù)集
關(guān)鍵字:模型,物體,內(nèi)容,視頻,數(shù)據(jù)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Diffusion4D團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI只需幾分鐘、一張圖或一句話,就能完成時(shí)空一致的4D內(nèi)容生成。
注意看,這些生成的3D物體,是帶有動(dòng)作變化的那種。也就是在3D物體的基礎(chǔ)之上,增加了時(shí)間維度的變化。
這一成果,名為Diffusion4D,來(lái)自多倫多大學(xué)、北京交通大學(xué)、德克薩斯大學(xué)奧斯汀分校和劍橋大學(xué)團(tuán)隊(duì)。
具體而言,Diffusion4D整理篩選了約81K個(gè)4D assets,利用8卡GPU共16線程,花費(fèi)超30天渲染得到了約400萬(wàn)張圖片,包括靜態(tài)3D物體環(huán)拍、動(dòng)態(tài)3D物體環(huán)拍,以及動(dòng)態(tài)3D物體前景視頻。
作者表示,該方法是首個(gè)利用大規(guī)模數(shù)據(jù)集,訓(xùn)練視頻生成模型生成4D內(nèi)容的框架,目前項(xiàng)目已經(jīng)開(kāi)源所有渲染的4D數(shù)據(jù)集以及渲染腳本。
研究背景過(guò)去的方法采用了2D、3D預(yù)訓(xùn)練模型在4D(動(dòng)態(tài)3D)內(nèi)容生成上取得了一定的突破,但這些方法主要依賴于分?jǐn)?shù)蒸餾采樣(SDS)或者生成的偽標(biāo)簽進(jìn)行優(yōu)化,同時(shí)利用多個(gè)預(yù)訓(xùn)練模型獲得監(jiān)督不可避免的導(dǎo)致時(shí)空上的不一致性以及優(yōu)化速度慢的問(wèn)題。
4D內(nèi)容生成的一致性包含了時(shí)間上和空間上的一致性,它們分別在視頻生成模型和多視圖生成
原文鏈接:靠Scaling Laws煉出4D版視頻生成模型,多倫多大學(xué)北交大等攜手開(kāi)源81K高質(zhì)量數(shù)據(jù)集
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破