AvatarGO

AvatarGO – 南洋理工聯合上海 AI Lab 等推出的4D人體與物體交互生成框架

AvatarGO是什么

AvatarGO 是由南洋理工大學S-Lab、上海 AI Lab 和香港大學共同開發的一種創新框架，旨在從文本描述中直接生成可動畫化的4D人體與物體交互場景。該系統采用零樣本（zero-shot）方法，并基于預訓練的擴散模型，解決了傳統技術在生成日常人機交互（HOI）場景時因缺乏大量交互數據而面臨的挑戰。AvatarGO 的核心技術包括：LLM引導的接觸重定位，利用Lang-SAM模型從文本提示中準確識別接觸部位，確保人體與物體之間的空間關系得以精確表示；優化則通過SMPL-X的線性混合蒙皮函數構建場，優化人體和物體的動畫，顯著減少穿透現象。AvatarGO在多種人體與物體組合及多樣化姿態下展現出卓越的生成和動畫能力。

AvatarGO

AvatarGO的主要功能

文本生成4D交互場景：基于簡潔的文本描述，直接生成包含人體與物體交互的動態4D動畫。
精確接觸表示：準確識別人體與物體的接觸部位（如手、腳等），確保生成的3D和4D場景中人體與物體的空間關系合理。
解決穿透問題：在動畫生成過程中，有效避免人體與物體間的穿透現象。
多樣化的4D動畫生成：生成動態的4D動畫，支持多種人物動作和物體交互。
多種人物與物體組合支持：處理各種人物與物體的組合，包括虛擬角色（如動漫人物、超級英雄）和現實人物，以及各種日常物品（如武器、工具、樂器等）。

AvatarGO的技術原理

LLM引導的接觸重定位：Lang-SAM（Language Segment Anything Model）從文本描述中提取接觸部位（如“手”），通過將3D人體模型渲染為2D圖像，結合文本提示生成接觸部位的分割掩碼，并將掩碼反向投影到3D模型中，以確保物體與人體的接觸部位精確。
空間感知的分數蒸餾采樣：引入SSDS，增強與人體-物體交互相關的文本標記（如“holding”）的關注權重，幫助擴散模型理解人體與物體之間的空間關系。
對應關系感知的優化：SMPL-X模型作為中介，為人體和物體構建場。基于線性混合蒙皮（LBS）函數，優化物體與人體的同步，引入新的訓練目標——對應關系感知損失，最小化人體與物體之間的空間偏差，確保動畫過程中兩者不會出現穿透現象。
基于擴散模型的3D和4D生成：
- 3D生成：運用DreamGaussian方法生成高質量的3D人體和物體模型，基于3D高斯點云表示場景，通過分數蒸餾采樣（SDS）優化生成結果。
- 4D動畫生成：在3D模型基礎上，基于HexPlane特征和SMPL-X模型生成動態的4D動畫，優化物體的全局參數（如旋轉、平移）和人體的序列，生成連貫且逼真的4D動畫。