ICLR 2025｜AI不語，只是一味根據人類意圖推理3D空間定位

AI 直接基于用戶的意圖推理目標，而無需明確的物體描述。

原標題：ICLR 2025｜AI不語，只是一味根據人類意圖推理3D空間定位
文章來源：機器之心
內容字數：4290字

機器之心AIxiv專欄報道：基于意圖的3D目標檢測新突破

機器之心AIxiv專欄持續報道全球頂尖AI研究成果。本文介紹一篇最新論文，該研究提出了一種新穎的3D意圖定位（3D-IG）任務，并設計了相應的IntentNet模型，顯著提升了基于自然語言指令的3D目標檢測性能。

1. 3D意圖定位：超越傳統3D視覺定位

以往的3D視覺定位（3D-VG）依賴用戶提供明確的目標描述，例如目標類別或空間關系。然而，在實際應用中，用戶往往會用意圖表達需求，例如“我想找個東西靠著，緩解背部壓力”。這篇文章提出的3D-IG任務，旨在根據用戶的意圖語句直接在3D場景中定位目標物體，無需用戶提供精確的物體描述，更貼近真實人機交互場景。相比于2D意圖推理，3D-IG利用3D數據更完整地反映了現實世界的幾何和空間信息，更能滿足實際需求。

2. Intent3D數據集與基準模型

為了推動3D-IG研究，研究人員構建了Intent3D數據集，包含44,990條意圖文本，涵蓋209類物體，基于1,042個ScanNet點云場景。該數據集的意圖文本由GPT-4生成并經人工審核，保證了數據質量和多樣性。為了評估模型性能，研究人員選取了BUTD-DETR、EDA、3D-VisTA和Chat-3D-v2等基準模型，并進行了從頭訓練、微調和零樣本測試。

3. IntentNet模型：多技術融合的意圖理解與目標檢測

研究人員設計了IntentNet模型來解決3D-IG問題。該模型融合了以下關鍵技術：動賓對齊（Verb-Object Alignment）、候選框匹配（Candidate Box Matching）和級聯自適應學習（Cascaded Adaptive Learning）。動賓對齊幫助模型理解意圖中的動詞和賓語關系；候選框匹配在稀疏的3D點云中高效匹配目標；級聯自適應學習根據不同損失函數的優先級調整權重，提升模型性能。IntentNet的架構包含基于PointNet++的點特征提取、RoBERTa文本編碼、基于注意力的多模態融合以及最終的候選框預測。

4. 顯著的實驗結果

實驗結果表明，IntentNet顯著優于所有基準模型。與驗證集上第二佳方法相比，IntentNet在Top1-Acc@0.25和Top1-Acc@0.5指標上分別提升了11.22%和8.05%；在AP@0.25和AP@0.5指標上分別提升了9.12%和5.43%。測試集上的結果也顯示了類似的顯著改進。

5. 結論

這項研究提出了一個具有挑戰性的3D意圖定位任務，并構建了相應的Intent3D數據集和IntentNet模型。實驗結果證明了該方法的有效性，為基于自然語言指令的3D目標檢測研究提供了新的方向，并有望推動智能體、自動駕駛、AR/VR等領域的發展。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 3D場景理解 # AI推理局限性 # 三維空間定位 # 人類意圖推理 # 具身智能

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

ICLR 2025｜AI不語，只是一味根據人類意圖推理3D空間定位

AI 直接基于用戶的意圖推理目標，而無需明確的物體描述。

機器之心AIxiv專欄報道：基于意圖的3D目標檢測新突破

1. 3D意圖定位：超越傳統3D視覺定位

2. Intent3D數據集與基準模型

3. IntentNet模型：多技術融合的意圖理解與目標檢測

4. 顯著的實驗結果

5. 結論

聯系作者

DeepSeek 開源周最后一天：揭秘 545% 超高利潤！

不用英偉達嚴選？DeepSeek最新開源項目再刷新認知，為何被贊“顛覆存儲架構”

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

ICLR 2025｜AI不語，只是一味根據人類意圖推理3D空間定位

AI 直接基于用戶的意圖推理目標，而無需明確的物體描述。

機器之心AIxiv專欄報道：基于意圖的3D目標檢測新突破

1. 3D意圖定位：超越傳統3D視覺定位

2. Intent3D數據集與基準模型

3. IntentNet模型：多技術融合的意圖理解與目標檢測

4. 顯著的實驗結果

5. 結論

聯系作者

DeepSeek 開源周最后一天： 揭秘 545% 超高利潤！

不用英偉達嚴選？DeepSeek最新開源項目再刷新認知，為何被贊“顛覆存儲架構”

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

DeepSeek 開源周最后一天：揭秘 545% 超高利潤！