這是首次嘗試基于文本引導生成具有物體交互的4D虛擬形象。
原標題:ICLR 2025|南洋理工大學AvatarGO,探索4D人與物體交互生成新方法
文章來源:機器之心
內容字數:11019字
AvatarGO:基于文本引導的4D人體-物體交互生成框架
本文介紹了南洋理工大學S-Lab提出的AvatarGO,一個全新的4D人體-物體交互(HOI)生成框架,能夠生成流暢逼真的人體與物體交互動畫,并有效解決穿模問題。AvatarGO突破了現有方法依賴SMPL模型的局限性,在以人為中心的4D內容創作領域展現了巨大潛力。
1. 現有方法的局限性
現有的4D HOI生成方法主要依賴SMPL人體模型,難以真實呈現日常生活中復雜的人體與物體交互場景。雖然一些方法(如InterDreamer)實現了零樣本生成,但仍受限于SMPL模型在衣物表現和對復雜交互場景的處理能力。盡管2D生成模型借助大語言模型和海量數據取得了顯著進展,但將這些技術遷移到3D/4D HOI生成時,仍面臨兩個關鍵挑戰:(1)物體與人體的接觸區域如何確定?(2)如何保持人體與物體在動態過程中的交互合理性?
2. AvatarGO的核心創新
為了解決上述挑戰,AvatarGO提出了兩項關鍵創新:
LLM引導的接觸區域重定向:利用Lang-SAM模型從文本中識別大致的接觸部位,作為優化過程的初始化,解決擴散模型在估計接觸區域時的難題。
對應關系感知的動作優化:將物體的分為主動和從動部分,利用SMPL-X作為中介,確保人體和物體在交互過程中保持一致的對應關系,顯著提高了對穿模問題的魯棒性。
3. AvatarGO的框架結構
AvatarGO框架主要包含兩個部分:
文本驅動的3D人體與物體組合:利用LLM從文本中重定向接觸區域,結合空間感知的SDS(空間感知評分蒸餾采樣)合成3D模型。
對應關系感知的動作優化:聯合優化人體和物體的動畫,保持空間對應關系,提高對穿模問題的魯棒性。
4. 關鍵技術細節
AvatarGO通過空間感知評分蒸餾采樣(SSDS)增強人體和物體之間的空間關系,并利用LLM引導的接觸區域重定向技術精確定義接觸區域。在動作優化方面,AvatarGO利用SMPL-X的線性混合蒙皮函數建立場,并提出對應關系感知優化方法,通過聯合優化人體和物體的可訓練參數,有效減少穿模問題。
5. 實驗結果與局限性
實驗結果表明,AvatarGO在生成高保真4D動畫方面顯著優于現有方法,在處理穿模問題上也具有更強的魯棒性。然而,AvatarGO也存在局限性,例如它假設物體是剛體,難以處理非剛性物體動畫,并且假設物體與人體持續接觸,難以處理間斷接觸的交互場景。
6. 總結
AvatarGO為基于文本引導的4D人體-物體交互生成開辟了新的途徑,其在解決穿模問題和生成逼真交互動畫方面取得了顯著進展。盡管存在一些局限性,但AvatarGO的創新方法為未來研究提供了寶貴的參考。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺