首創(chuàng)pix2emb范式!NUS清華聯(lián)合發(fā)布NExT-Chat:對話/檢測/分割全能多模態(tài)大模型
AIGC動態(tài)歡迎閱讀
原標題:首創(chuàng)pix2emb范式!NUS清華聯(lián)合發(fā)布NExT-Chat:對話/檢測/分割全能多模態(tài)大模型
關(guān)鍵字:位置,模型,能力,任務(wù),數(shù)據(jù)
文章來源:新智元
內(nèi)容字數(shù):10711字
內(nèi)容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】研究人員提出了一個全新的位置建模方式pix2emb,可以在多模態(tài)對話模型中指定位置輸入來回答問題。隨著ChatGPT的爆紅,多模態(tài)領(lǐng)域也涌現(xiàn)出一大批可以處理多種模態(tài)輸入的對話模型,如LLaVA, BLIP-2等等。
為了進一步擴展多模態(tài)大模型的區(qū)域理解能力,近期新加坡國立大學NExT++實驗室和清華大學的研究人員聯(lián)手打造了一個可以同時進行對話和檢測、分割的多模態(tài)模型NExT-Chat。作者:張傲,姚遠,吉煒,劉知遠,Chua Tat-Seng
多模態(tài)對話模型Demo:https://next-chatv.github.io/
論文:https://arxiv.org/pdf/2311.04498.pdf
代碼:https://github.com/NExT-ChatV/NExT-Chat文章探索了如何在多模態(tài)模型中引入位置輸入和輸出的能力。
其中,位置輸入能力指的是根據(jù)指定的區(qū)域回答問題,比如圖1中的左圖。
而位置輸出能力指的是定位對話中提及的物體,如圖1右圖的小熊定位。圖1:位置輸入和輸出示例
現(xiàn)有的方法主要通過pix2seq的方式進行L
原文鏈接:首創(chuàng)pix2emb范式!NUS清華聯(lián)合發(fā)布NExT-Chat:對話/檢測/分割全能多模態(tài)大模型
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。