PUGS:基于3D高斯濺射零樣本物理理解
原標題:Zero-shot重建物理高斯資產,清華&光輪視覺大模型讓機器人理解物理屬性|ICRA 2025
文章來源:量子位
內容字數:6136字
PUGS:無需訓練,零樣本理解物體物理屬性
準確理解物體的物理屬性對于機器人操作至關重要,然而現有方法常面臨預測結果碎片化、屬性不連續等問題。光輪智能與清華AIR、同濟大學等機構合作,提出了一種基于3D高斯濺射的全新方法——PUGS(Zero-shot Physical Understanding with Gaussian Splatting),能夠從多視角圖像中零樣本地重建物體并重建其物理屬性。
1. PUGS框架概述
PUGS框架包含三個階段:形狀與區域感知的3D高斯濺射(3DGS)重建、基于視覺語言模型(VLM)的物理屬性預測以及基于區域特征的屬性傳播。對于物體級別的物理屬性(如質量),還包含高斯體積積分模塊。
PUGS以多視角圖像為輸入,允許指定需要預測的屬性(密度、硬度、楊氏模量等),輸出包含RGB信息和任意位置物理屬性的物體重建結果。
2. 形狀與區域感知的3DGS重建
PUGS利用3DGS進行物體重建,并引入幾何感知正則化損失和稀疏損失來解決原始3DGS重建現的“Floater”問題,提高幾何精度。同時,引入區域感知特征對比損失,通過對比學習訓練高斯分布的特征,增強區域區分能力,提高物理屬性預測準確性。
3. 基于VLM的物理屬性預測
PUGS直接利用VLM對多視角圖像進行材質和物理屬性預測,避免了NeRF2Physics中圖像到文本轉換的信息丟失。VLM輸出物體可能的材質及其物理屬性范圍,這些屬性隨后通過CLIP特征傳播到重建的3DGS中。
4. 基于區域特征的屬性傳播
PUGS利用CLIP特征和區域感知特征進行屬性傳播。首先,從3DGS中隨機采樣高斯點,計算其投影到圖像上的patch對應的CLIP特征,并與候選材質進行相似性計算,分配材質到高斯點。然后,利用區域感知特征進行屬性傳播,使預測結果更均勻精確。
5. 高斯體積積分
對于物體級別屬性(如質量),PUGS使用高斯體積積分模塊進行計算。它將每個3D高斯視為一個3D橢球體,結合不透明度和密度值進行累積計算,得到初步體積預測。為了提高精度,PUGS引入“pure volume”概念,并通過VLM獲取該值來修正最終預測結果。
6. 實驗結果與結論
定性和定量實驗結果表明,PUGS在材質預測和物體質量估計方面顯著優于NeRF2Physics,預測結果更準確合理。在機器人抓取實驗中,PUGS準確預測的楊氏模量確保了抓取成功,而NeRF2Physics的錯誤預測導致了抓取失敗。消融實驗也驗證了各個模塊的有效性。
PUGS能夠準確重建物體的幾何形狀并保持物理屬性預測的材質一致性,為實際機器人應用提供了重要支撐,重建結果也可作為攜帶物理屬性的資產用于其他下游任務。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破