AIGC動態歡迎閱讀
原標題:港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體
關鍵字:字節跳動,模型,能力,物體,語言
文章來源:量子位
內容字數:3751字
內容摘要:
允中 發自 凹非寺量子位 | 公眾號 QbitAI當前,多模態大模型(MLLM)在多項視覺任務上展現出了強大的認知理解能力。
然而大部分多模態大模型局限于單向的圖像理解,難以將理解的內容映射回圖像上。
比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準確標識出來。
定位能力的缺失直接限制了多模態大模型在圖像編輯,自動駕駛,機器人控制等下游領域的應用。
針對這一問題,港大和字節跳動商業化團隊的研究人員提出了一種新范式Groma——
通過區域性圖像編碼來提升多模態大模型的感知定位能力。
在融入定位后,Groma可以將文本內容和圖像區域直接關聯起來,從而顯著提升對話的交互性和指向性。
核心思路如何賦予多模態大模型定位物體的能力,乃至于將文字內容和圖像區域關聯起來,做到“言之有物”,是當前一大研究熱點。
常見的做法是微調大語言模型使其直接輸出物體坐標。然而這種方法卻有著諸多限制:
1、在文本上預訓練的大語言模型本身不具備空間理解能力,僅依靠少量數據微調很難精準定位物體。
2、定位任務對輸入圖像的分辨率有較高要求,但提高分辨率會顯著增加多模態大模型的計算量。
3、大語言模型的輸出形式不適合
原文鏈接:港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...