ICLR 2025｜南洋理工大學(xué)AvatarGO，探索4D人與物體交互生成新方法

這是首次嘗試基于文本引導(dǎo)生成具有物體交互的4D虛擬形象。

原標(biāo)題：ICLR 2025｜南洋理工大學(xué)AvatarGO，探索4D人與物體交互生成新方法
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：11019字

AvatarGO：基于文本引導(dǎo)的4D人體-物體交互生成框架

本文介紹了南洋理工大學(xué)S-Lab提出的AvatarGO，一個(gè)全新的4D人體-物體交互（HOI）生成框架，能夠生成流暢逼真的人體與物體交互動(dòng)畫(huà)，并有效解決穿模問(wèn)題。AvatarGO突破了現(xiàn)有方法依賴(lài)SMPL模型的局限性，在以人為中心的4D內(nèi)容創(chuàng)作領(lǐng)域展現(xiàn)了巨大潛力。

1. 現(xiàn)有方法的局限性

現(xiàn)有的4D HOI生成方法主要依賴(lài)SMPL人體模型，難以真實(shí)呈現(xiàn)日常生活中復(fù)雜的人體與物體交互場(chǎng)景。雖然一些方法（如InterDreamer）實(shí)現(xiàn)了零樣本生成，但仍受限于SMPL模型在衣物表現(xiàn)和對(duì)復(fù)雜交互場(chǎng)景的處理能力。盡管2D生成模型借助大語(yǔ)言模型和海量數(shù)據(jù)取得了顯著進(jìn)展，但將這些技術(shù)遷移到3D/4D HOI生成時(shí)，仍面臨兩個(gè)關(guān)鍵挑戰(zhàn)：（1）物體與人體的接觸區(qū)域如何確定？（2）如何保持人體與物體在動(dòng)態(tài)過(guò)程中的交互合理性？

2. AvatarGO的核心創(chuàng)新

為了解決上述挑戰(zhàn)，AvatarGO提出了兩項(xiàng)關(guān)鍵創(chuàng)新：

LLM引導(dǎo)的接觸區(qū)域重定向：利用Lang-SAM模型從文本中識(shí)別大致的接觸部位，作為優(yōu)化過(guò)程的初始化，解決擴(kuò)散模型在估計(jì)接觸區(qū)域時(shí)的難題。
對(duì)應(yīng)關(guān)系感知的動(dòng)作優(yōu)化：將物體的分為主動(dòng)和從動(dòng)部分，利用SMPL-X作為中介，確保人體和物體在交互過(guò)程中保持一致的對(duì)應(yīng)關(guān)系，顯著提高了對(duì)穿模問(wèn)題的魯棒性。

3. AvatarGO的框架結(jié)構(gòu)

AvatarGO框架主要包含兩個(gè)部分：

文本驅(qū)動(dòng)的3D人體與物體組合：利用LLM從文本中重定向接觸區(qū)域，結(jié)合空間感知的SDS（空間感知評(píng)分蒸餾采樣）合成3D模型。
對(duì)應(yīng)關(guān)系感知的動(dòng)作優(yōu)化：聯(lián)合優(yōu)化人體和物體的動(dòng)畫(huà)，保持空間對(duì)應(yīng)關(guān)系，提高對(duì)穿模問(wèn)題的魯棒性。

4. 關(guān)鍵技術(shù)細(xì)節(jié)

AvatarGO通過(guò)空間感知評(píng)分蒸餾采樣（SSDS）增強(qiáng)人體和物體之間的空間關(guān)系，并利用LLM引導(dǎo)的接觸區(qū)域重定向技術(shù)精確定義接觸區(qū)域。在動(dòng)作優(yōu)化方面，AvatarGO利用SMPL-X的線(xiàn)性混合蒙皮函數(shù)建立場(chǎng)，并提出對(duì)應(yīng)關(guān)系感知優(yōu)化方法，通過(guò)聯(lián)合優(yōu)化人體和物體的可訓(xùn)練參數(shù)，有效減少穿模問(wèn)題。

5. 實(shí)驗(yàn)結(jié)果與局限性

實(shí)驗(yàn)結(jié)果表明，AvatarGO在生成高保真4D動(dòng)畫(huà)方面顯著優(yōu)于現(xiàn)有方法，在處理穿模問(wèn)題上也具有更強(qiáng)的魯棒性。然而，AvatarGO也存在局限性，例如它假設(shè)物體是剛體，難以處理非剛性物體動(dòng)畫(huà)，并且假設(shè)物體與人體持續(xù)接觸，難以處理間斷接觸的交互場(chǎng)景。

6. 總結(jié)

AvatarGO為基于文本引導(dǎo)的4D人體-物體交互生成開(kāi)辟了新的途徑，其在解決穿模問(wèn)題和生成逼真交互動(dòng)畫(huà)方面取得了顯著進(jìn)展。盡管存在一些局限性，但AvatarGO的創(chuàng)新方法為未來(lái)研究提供了寶貴的參考。

聯(lián)系作者

文章來(lái)源：機(jī)器之心
作者微信：
作者簡(jiǎn)介：專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# 4D人機(jī)交互 # Avatar生成 # 三維場(chǎng)景生成 # 交互式AI # 物體交互生成

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

ICLR 2025｜南洋理工大學(xué)AvatarGO，探索4D人與物體交互生成新方法

這是首次嘗試基于文本引導(dǎo)生成具有物體交互的4D虛擬形象。

AvatarGO：基于文本引導(dǎo)的4D人體-物體交互生成框架

1. 現(xiàn)有方法的局限性

2. AvatarGO的核心創(chuàng)新

3. AvatarGO的框架結(jié)構(gòu)

4. 關(guān)鍵技術(shù)細(xì)節(jié)

5. 實(shí)驗(yàn)結(jié)果與局限性

6. 總結(jié)

聯(lián)系作者

多模態(tài)大模型事實(shí)正確性評(píng)估：o1最強(qiáng)，模型普遍過(guò)于自信，最擅長(zhǎng)現(xiàn)代建筑/工程技術(shù)/科學(xué)

挖掘「縫合」的潛力：CapaBench 揭示 LLM 智能體中各個(gè)模塊的作用

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)