ICLR 2025|南洋理工大學(xué)AvatarGO,探索4D人與物體交互生成新方法
這是首次嘗試基于文本引導(dǎo)生成具有物體交互的4D虛擬形象。
原標(biāo)題:ICLR 2025|南洋理工大學(xué)AvatarGO,探索4D人與物體交互生成新方法
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):11019字
AvatarGO:基于文本引導(dǎo)的4D人體-物體交互生成框架
本文介紹了南洋理工大學(xué)S-Lab提出的AvatarGO,一個(gè)全新的4D人體-物體交互(HOI)生成框架,能夠生成流暢逼真的人體與物體交互動(dòng)畫(huà),并有效解決穿模問(wèn)題。AvatarGO突破了現(xiàn)有方法依賴(lài)SMPL模型的局限性,在以人為中心的4D內(nèi)容創(chuàng)作領(lǐng)域展現(xiàn)了巨大潛力。
1. 現(xiàn)有方法的局限性
現(xiàn)有的4D HOI生成方法主要依賴(lài)SMPL人體模型,難以真實(shí)呈現(xiàn)日常生活中復(fù)雜的人體與物體交互場(chǎng)景。雖然一些方法(如InterDreamer)實(shí)現(xiàn)了零樣本生成,但仍受限于SMPL模型在衣物表現(xiàn)和對(duì)復(fù)雜交互場(chǎng)景的處理能力。盡管2D生成模型借助大語(yǔ)言模型和海量數(shù)據(jù)取得了顯著進(jìn)展,但將這些技術(shù)遷移到3D/4D HOI生成時(shí),仍面臨兩個(gè)關(guān)鍵挑戰(zhàn):(1)物體與人體的接觸區(qū)域如何確定?(2)如何保持人體與物體在動(dòng)態(tài)過(guò)程中的交互合理性?
2. AvatarGO的核心創(chuàng)新
為了解決上述挑戰(zhàn),AvatarGO提出了兩項(xiàng)關(guān)鍵創(chuàng)新:
LLM引導(dǎo)的接觸區(qū)域重定向:利用Lang-SAM模型從文本中識(shí)別大致的接觸部位,作為優(yōu)化過(guò)程的初始化,解決擴(kuò)散模型在估計(jì)接觸區(qū)域時(shí)的難題。
對(duì)應(yīng)關(guān)系感知的動(dòng)作優(yōu)化:將物體的分為主動(dòng)和從動(dòng)部分,利用SMPL-X作為中介,確保人體和物體在交互過(guò)程中保持一致的對(duì)應(yīng)關(guān)系,顯著提高了對(duì)穿模問(wèn)題的魯棒性。
3. AvatarGO的框架結(jié)構(gòu)
AvatarGO框架主要包含兩個(gè)部分:
文本驅(qū)動(dòng)的3D人體與物體組合:利用LLM從文本中重定向接觸區(qū)域,結(jié)合空間感知的SDS(空間感知評(píng)分蒸餾采樣)合成3D模型。
對(duì)應(yīng)關(guān)系感知的動(dòng)作優(yōu)化:聯(lián)合優(yōu)化人體和物體的動(dòng)畫(huà),保持空間對(duì)應(yīng)關(guān)系,提高對(duì)穿模問(wèn)題的魯棒性。
4. 關(guān)鍵技術(shù)細(xì)節(jié)
AvatarGO通過(guò)空間感知評(píng)分蒸餾采樣(SSDS)增強(qiáng)人體和物體之間的空間關(guān)系,并利用LLM引導(dǎo)的接觸區(qū)域重定向技術(shù)精確定義接觸區(qū)域。在動(dòng)作優(yōu)化方面,AvatarGO利用SMPL-X的線(xiàn)性混合蒙皮函數(shù)建立場(chǎng),并提出對(duì)應(yīng)關(guān)系感知優(yōu)化方法,通過(guò)聯(lián)合優(yōu)化人體和物體的可訓(xùn)練參數(shù),有效減少穿模問(wèn)題。
5. 實(shí)驗(yàn)結(jié)果與局限性
實(shí)驗(yàn)結(jié)果表明,AvatarGO在生成高保真4D動(dòng)畫(huà)方面顯著優(yōu)于現(xiàn)有方法,在處理穿模問(wèn)題上也具有更強(qiáng)的魯棒性。然而,AvatarGO也存在局限性,例如它假設(shè)物體是剛體,難以處理非剛性物體動(dòng)畫(huà),并且假設(shè)物體與人體持續(xù)接觸,難以處理間斷接觸的交互場(chǎng)景。
6. 總結(jié)
AvatarGO為基于文本引導(dǎo)的4D人體-物體交互生成開(kāi)辟了新的途徑,其在解決穿模問(wèn)題和生成逼真交互動(dòng)畫(huà)方面取得了顯著進(jìn)展。盡管存在一些局限性,但AvatarGO的創(chuàng)新方法為未來(lái)研究提供了寶貴的參考。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)