大模型都會標注圖像了,簡單對話即可!來自清華&NUS
AIGC動態(tài)歡迎閱讀
原標題:大模型都會標注圖像了,簡單對話即可!來自清華&NUS
關(guān)鍵字:模型,位置,能力,數(shù)據(jù),任務(wù)
文章來源:量子位
內(nèi)容字數(shù):4921字
內(nèi)容摘要:
張傲 投稿量子位 | 公眾號 QbitAI多模態(tài)大模型集成了檢測分割模塊后,摳圖變得更簡單了!
只需用自然語言描述需求,模型就能分分鐘標注出要尋找的物體,并做出文字解釋。
在其背后提供支持的,是新加坡國立大學NExT++實驗室與清華劉知遠團隊一同打造的全新多模態(tài)大模型。
隨著GPT-4v的登場,多模態(tài)領(lǐng)域涌現(xiàn)出一大批新模型,如LLaVA、BLIP-2等等。
為了進一步擴展多模態(tài)大模型的區(qū)域理解能力,研究團隊打造了一個可以同時進行對話和檢測、分割的多模態(tài)模型NExT-Chat。
NExT-Chat的最大亮點,是在多模態(tài)模型中引入位置輸入和輸出的能力。
其中位置輸入能力指的是根據(jù)指定的區(qū)域回答問題(下方左圖);位置輸出能力指的則是定位對話中提及的物體(下方右圖):
即使是復(fù)雜的定位問題,也能迎刃而解:
除了物體定位,NExT-Chat還可以對圖片或其中的某個部分進行描述:
分析完圖像的內(nèi)容之后,NExT-Chat可以利用得到的信息進行推理:
為了準確評估NExT-Chat的表現(xiàn),研究團隊在多個任務(wù)數(shù)據(jù)集上進行了測試。
在多個數(shù)據(jù)集上取得SOTA作者首先展示了NExT-Chat在指代表達式分
原文鏈接:大模型都會標注圖像了,簡單對話即可!來自清華&NUS
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破