百萬魯棒數(shù)據(jù)訓(xùn)練,3D場景大語言模型新SOTA!IIT等發(fā)布Robin3D

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:百萬魯棒數(shù)據(jù)訓(xùn)練,3D場景大語言模型新SOTA!IIT等發(fā)布Robin3D
關(guān)鍵字:物體,數(shù)據(jù),模型,指令,任務(wù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRST
【新智元導(dǎo)讀】Robin3D通過魯棒指令數(shù)據(jù)生成引擎(RIG)生成的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,以提高模型在3D場景理解中的魯棒性和泛化能力,在多個(gè)3D多模態(tài)學(xué)習(xí)基準(zhǔn)測試中取得了優(yōu)異的性能,超越了以往的方法,且無需針對(duì)特定任務(wù)的微調(diào)。多模態(tài)大語言模型(Multi-modal Large Language Models, MLLMs)以文本模態(tài)為基礎(chǔ),將其它各種模態(tài)對(duì)齊至語言模型的語義空間,從而實(shí)現(xiàn)多模態(tài)的理解和對(duì)話能力。近來,越來越多的研究聚焦于3D大語言模型(3DLLM),旨在實(shí)現(xiàn)對(duì)3D物體以及復(fù)雜場景的理解,推理和對(duì)話。
與2D MLLM所能接觸的廣泛的多模態(tài)數(shù)據(jù)不同,3DLLM的訓(xùn)練數(shù)據(jù)相對(duì)稀少。
即便過去有些工作嘗試生成更多的多模態(tài)指令數(shù)據(jù),但這類模型仍然在指令的魯棒性上存在兩點(diǎn)不足:
1. 絕大多數(shù)3D多模態(tài)指令數(shù)據(jù)對(duì)是正樣本對(duì),缺乏負(fù)樣本對(duì)或者對(duì)抗性樣本對(duì)。模型在這種數(shù)據(jù)上訓(xùn)練缺乏一定的辨識(shí)能力,因?yàn)闊o論被問到什么問題,模型只會(huì)輸出正面的回答。因此碰到問題與場景無關(guān)時(shí),模型也更容易出現(xiàn)幻覺。這種模型有可能只是記住了正樣本對(duì),而非真正地理解被問及的場景
原文鏈接:百萬魯棒數(shù)據(jù)訓(xùn)練,3D場景大語言模型新SOTA!IIT等發(fā)布Robin3D
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)