港大字節(jié)提出多模態(tài)大模型新范式,模擬人類先感知后認(rèn)知,精確定位圖中物體
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:港大字節(jié)提出多模態(tài)大模型新范式,模擬人類先感知后認(rèn)知,精確定位圖中物體
關(guān)鍵字:字節(jié)跳動(dòng),模型,能力,物體,語言
文章來源:量子位
內(nèi)容字?jǐn)?shù):3751字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI當(dāng)前,多模態(tài)大模型(MLLM)在多項(xiàng)視覺任務(wù)上展現(xiàn)出了強(qiáng)大的認(rèn)知理解能力。
然而大部分多模態(tài)大模型局限于單向的圖像理解,難以將理解的內(nèi)容映射回圖像上。
比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準(zhǔn)確標(biāo)識(shí)出來。
定位能力的缺失直接限制了多模態(tài)大模型在圖像編輯,自動(dòng)駕駛,機(jī)器人控制等下游領(lǐng)域的應(yīng)用。
針對(duì)這一問題,港大和字節(jié)跳動(dòng)商業(yè)化團(tuán)隊(duì)的研究人員提出了一種新范式Groma——
通過區(qū)域性圖像編碼來提升多模態(tài)大模型的感知定位能力。
在融入定位后,Groma可以將文本內(nèi)容和圖像區(qū)域直接關(guān)聯(lián)起來,從而顯著提升對(duì)話的交互性和指向性。
核心思路如何賦予多模態(tài)大模型定位物體的能力,乃至于將文字內(nèi)容和圖像區(qū)域關(guān)聯(lián)起來,做到“言之有物”,是當(dāng)前一大研究熱點(diǎn)。
常見的做法是微調(diào)大語言模型使其直接輸出物體坐標(biāo)。然而這種方法卻有著諸多限制:
1、在文本上預(yù)訓(xùn)練的大語言模型本身不具備空間理解能力,僅依靠少量數(shù)據(jù)微調(diào)很難精準(zhǔn)定位物體。
2、定位任務(wù)對(duì)輸入圖像的分辨率有較高要求,但提高分辨率會(huì)顯著增加多模態(tài)大模型的計(jì)算量。
3、大語言模型的輸出形式不適合
原文鏈接:港大字節(jié)提出多模態(tài)大模型新范式,模擬人類先感知后認(rèn)知,精確定位圖中物體
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破