360度無死角!UC伯克利華人發(fā)布3DHM框架:一張圖片即可模仿任意視頻動作
AIGC動態(tài)歡迎閱讀
原標題:360度無死角!UC伯克利華人發(fā)布3DHM框架:一張圖片即可模仿任意視頻動作
關(guān)鍵字:紋理,模型,報告,姿勢,研究人員
文章來源:新智元
內(nèi)容字數(shù):7043字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導讀】無需標注數(shù)據(jù),3DHM框架即可讓照片動起來,模仿目標視頻動作,衣服動起來也真實!輸入一張任意姿勢的照片,想讓照片里的人跟隨「指定視頻」來進行動作模仿并不簡單,除了肢體動作的模仿外,模型還需要對過程中衣服、人物外觀的變化進行建模。如果輸入圖像是正面的,而模仿的視頻動作包括轉(zhuǎn)身的話,模型還需要「想象」出衣服的背面樣子,以及衣服在轉(zhuǎn)動過程中飄起的樣子。
為了解決這個問題,來自加州大學伯克利分校的研究人員提出了一個兩階段的、基于擴散模型的框架3DHM,通過從單個圖像完成紋理圖來合成3D人體,然后渲染3D人體以模仿視頻中actor的動作。論文地址:https://arxiv.org/abs/2401.10889
3DHM模型中包含兩個核心組件:
1. 學習人體和服裝中不可見部分的先驗知識。
研究人員使用填充擴散(in-filling diffusion)模型,在給定的單張圖像中想象(hallucinate)出不可見部分,然后在紋理圖空間(texture map space)上訓練該模型,在姿勢和視點不變的條件下提升采樣效率。
2. 使用適當?shù)姆b和
原文鏈接:360度無死角!UC伯克利華人發(fā)布3DHM框架:一張圖片即可模仿任意視頻動作
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。