AIGC動態歡迎閱讀
原標題:百萬魯棒數據訓練,3D場景大語言模型新SOTA!IIT等發布Robin3D
關鍵字:物體,數據,模型,指令,任務
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRST
【新智元導讀】Robin3D通過魯棒指令數據生成引擎(RIG)生成的大規模數據進行訓練,以提高模型在3D場景理解中的魯棒性和泛化能力,在多個3D多模態學習基準測試中取得了優異的性能,超越了以往的方法,且無需針對特定任務的微調。多模態大語言模型(Multi-modal Large Language Models, MLLMs)以文本模態為基礎,將其它各種模態對齊至語言模型的語義空間,從而實現多模態的理解和對話能力。近來,越來越多的研究聚焦于3D大語言模型(3DLLM),旨在實現對3D物體以及復雜場景的理解,推理和對話。
與2D MLLM所能接觸的廣泛的多模態數據不同,3DLLM的訓練數據相對稀少。
即便過去有些工作嘗試生成更多的多模態指令數據,但這類模型仍然在指令的魯棒性上存在兩點不足:
1. 絕大多數3D多模態指令數據對是正樣本對,缺乏負樣本對或者對抗性樣本對。模型在這種數據上訓練缺乏一定的辨識能力,因為無論被問到什么問題,模型只會輸出正面的回答。因此碰到問題與場景無關時,模型也更容易出現幻覺。這種模型有可能只是記住了正樣本對,而非真正地理解被問及的場景
原文鏈接:百萬魯棒數據訓練,3D場景大語言模型新SOTA!IIT等發布Robin3D
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...