大模型都會標注圖像了，簡單對話即可！來自清華&NUS

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：大模型都會標注圖像了，簡單對話即可！來自清華&NUS
關(guān)鍵字：模型,位置,能力,數(shù)據(jù),任務(wù)
文章來源：量子位
內(nèi)容字數(shù)：4921字

內(nèi)容摘要：

張傲投稿量子位 | 公眾號 QbitAI多模態(tài)大模型集成了檢測分割模塊后，摳圖變得更簡單了！
只需用自然語言描述需求，模型就能分分鐘標注出要尋找的物體，并做出文字解釋。
在其背后提供支持的，是新加坡國立大學NExT++實驗室與清華劉知遠團隊一同打造的全新多模態(tài)大模型。
隨著GPT-4v的登場，多模態(tài)領(lǐng)域涌現(xiàn)出一大批新模型，如LLaVA、BLIP-2等等。
為了進一步擴展多模態(tài)大模型的區(qū)域理解能力，研究團隊打造了一個可以同時進行對話和檢測、分割的多模態(tài)模型NExT-Chat。
NExT-Chat的最大亮點，是在多模態(tài)模型中引入位置輸入和輸出的能力。
其中位置輸入能力指的是根據(jù)指定的區(qū)域回答問題（下方左圖）；位置輸出能力指的則是定位對話中提及的物體（下方右圖）：
即使是復(fù)雜的定位問題，也能迎刃而解：
除了物體定位，NExT-Chat還可以對圖片或其中的某個部分進行描述：
分析完圖像的內(nèi)容之后，NExT-Chat可以利用得到的信息進行推理：
為了準確評估NExT-Chat的表現(xiàn)，研究團隊在多個任務(wù)數(shù)據(jù)集上進行了測試。
在多個數(shù)據(jù)集上取得SOTA作者首先展示了NExT-Chat在指代表達式分

原文鏈接：大模型都會標注圖像了，簡單對話即可！來自清華&NUS