首創(chuàng)pix2emb范式!NUS清華聯(lián)合發(fā)布NExT-Chat:對話/檢測/分割全能多模態(tài)大模型

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首創(chuàng)pix2emb范式!NUS清華聯(lián)合發(fā)布NExT-Chat:對話/檢測/分割全能多模態(tài)大模型
關(guān)鍵字:位置,模型,能力,任務(wù),數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):10711字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS 好困
【新智元導(dǎo)讀】研究人員提出了一個(gè)全新的位置建模方式pix2emb,可以在多模態(tài)對話模型中指定位置輸入來回答問題。隨著ChatGPT的爆紅,多模態(tài)領(lǐng)域也涌現(xiàn)出一大批可以處理多種模態(tài)輸入的對話模型,如LLaVA, BLIP-2等等。
為了進(jìn)一步擴(kuò)展多模態(tài)大模型的區(qū)域理解能力,近期新加坡國立大學(xué)NExT++實(shí)驗(yàn)室和清華大學(xué)的研究人員聯(lián)手打造了一個(gè)可以同時(shí)進(jìn)行對話和檢測、分割的多模態(tài)模型NExT-Chat。作者:張傲,姚遠(yuǎn),吉煒,劉知遠(yuǎn),Chua Tat-Seng
多模態(tài)對話模型Demo:https://next-chatv.github.io/
論文:https://arxiv.org/pdf/2311.04498.pdf
代碼:https://github.com/NExT-ChatV/NExT-Chat文章探索了如何在多模態(tài)模型中引入位置輸入和輸出的能力。
其中,位置輸入能力指的是根據(jù)指定的區(qū)域回答問題,比如圖1中的左圖。
而位置輸出能力指的是定位對話中提及的物體,如圖1右圖的小熊定位。圖1:位置輸入和輸出示例
現(xiàn)有的方法主要通過pix2seq的方式進(jìn)行L
原文鏈接:首創(chuàng)pix2emb范式!NUS清華聯(lián)合發(fā)布NExT-Chat:對話/檢測/分割全能多模態(tài)大模型
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號