AI 直接基于用戶的意圖推理目標,而無需明確的物體描述。
原標題:ICLR 2025|AI不語,只是一味根據人類意圖推理3D空間定位
文章來源:機器之心
內容字數:4290字
機器之心AIxiv專欄報道:基于意圖的3D目標檢測新突破
機器之心AIxiv專欄持續報道全球頂尖AI研究成果。本文介紹一篇最新論文,該研究提出了一種新穎的3D意圖定位(3D-IG)任務,并設計了相應的IntentNet模型,顯著提升了基于自然語言指令的3D目標檢測性能。
1. 3D意圖定位:超越傳統3D視覺定位
以往的3D視覺定位(3D-VG)依賴用戶提供明確的目標描述,例如目標類別或空間關系。然而,在實際應用中,用戶往往會用意圖表達需求,例如“我想找個東西靠著,緩解背部壓力”。 這篇文章提出的3D-IG任務,旨在根據用戶的意圖語句直接在3D場景中定位目標物體,無需用戶提供精確的物體描述,更貼近真實人機交互場景。相比于2D意圖推理,3D-IG利用3D數據更完整地反映了現實世界的幾何和空間信息,更能滿足實際需求。
2. Intent3D數據集與基準模型
為了推動3D-IG研究,研究人員構建了Intent3D數據集,包含44,990條意圖文本,涵蓋209類物體,基于1,042個ScanNet點云場景。該數據集的意圖文本由GPT-4生成并經人工審核,保證了數據質量和多樣性。為了評估模型性能,研究人員選取了BUTD-DETR、EDA、3D-VisTA和Chat-3D-v2等基準模型,并進行了從頭訓練、微調和零樣本測試。
3. IntentNet模型:多技術融合的意圖理解與目標檢測
研究人員設計了IntentNet模型來解決3D-IG問題。該模型融合了以下關鍵技術:動賓對齊(Verb-Object Alignment)、候選框匹配(Candidate Box Matching)和級聯自適應學習(Cascaded Adaptive Learning)。動賓對齊幫助模型理解意圖中的動詞和賓語關系;候選框匹配在稀疏的3D點云中高效匹配目標;級聯自適應學習根據不同損失函數的優先級調整權重,提升模型性能。IntentNet的架構包含基于PointNet++的點特征提取、RoBERTa文本編碼、基于注意力的多模態融合以及最終的候選框預測。
4. 顯著的實驗結果
實驗結果表明,IntentNet顯著優于所有基準模型。與驗證集上第二佳方法相比,IntentNet在Top1-Acc@0.25和Top1-Acc@0.5指標上分別提升了11.22%和8.05%;在AP@0.25和AP@0.5指標上分別提升了9.12%和5.43%。測試集上的結果也顯示了類似的顯著改進。
5. 結論
這項研究提出了一個具有挑戰性的3D意圖定位任務,并構建了相應的Intent3D數據集和IntentNet模型。實驗結果證明了該方法的有效性,為基于自然語言指令的3D目標檢測研究提供了新的方向,并有望推動智能體、自動駕駛、AR/VR等領域的發展。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺