AIGC動態歡迎閱讀
原標題:大模型都會標注圖像了,簡單對話即可!來自清華&NUS
關鍵字:模型,位置,能力,數據,任務
文章來源:量子位
內容字數:4921字
內容摘要:
張傲 投稿量子位 | 公眾號 QbitAI多模態大模型集成了檢測分割模塊后,摳圖變得更簡單了!
只需用自然語言描述需求,模型就能分分鐘標注出要尋找的物體,并做出文字解釋。
在其背后提供支持的,是新加坡國立大學NExT++實驗室與清華劉知遠團隊一同打造的全新多模態大模型。
隨著GPT-4v的登場,多模態領域涌現出一大批新模型,如LLaVA、BLIP-2等等。
為了進一步擴展多模態大模型的區域理解能力,研究團隊打造了一個可以同時進行對話和檢測、分割的多模態模型NExT-Chat。
NExT-Chat的最大亮點,是在多模態模型中引入位置輸入和輸出的能力。
其中位置輸入能力指的是根據指定的區域回答問題(下方左圖);位置輸出能力指的則是定位對話中提及的物體(下方右圖):
即使是復雜的定位問題,也能迎刃而解:
除了物體定位,NExT-Chat還可以對圖片或其中的某個部分進行描述:
分析完圖像的內容之后,NExT-Chat可以利用得到的信息進行推理:
為了準確評估NExT-Chat的表現,研究團隊在多個任務數據集上進行了測試。
在多個數據集上取得SOTA作者首先展示了NExT-Chat在指代表達式分
原文鏈接:大模型都會標注圖像了,簡單對話即可!來自清華&NUS
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...