首創(chuàng)pix2emb范式！NUS清華聯(lián)合發(fā)布NExT-Chat：對話/檢測/分割全能多模態(tài)大模型

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：首創(chuàng)pix2emb范式！NUS清華聯(lián)合發(fā)布NExT-Chat：對話/檢測/分割全能多模態(tài)大模型
關(guān)鍵字：位置,模型,能力,任務(wù),數(shù)據(jù)
文章來源：新智元
內(nèi)容字數(shù)：10711字

內(nèi)容摘要：

新智元報道編輯：LRS 好困
【新智元導讀】研究人員提出了一個全新的位置建模方式pix2emb，可以在多模態(tài)對話模型中指定位置輸入來回答問題。隨著ChatGPT的爆紅，多模態(tài)領(lǐng)域也涌現(xiàn)出一大批可以處理多種模態(tài)輸入的對話模型，如LLaVA, BLIP-2等等。
為了進一步擴展多模態(tài)大模型的區(qū)域理解能力，近期新加坡國立大學NExT++實驗室和清華大學的研究人員聯(lián)手打造了一個可以同時進行對話和檢測、分割的多模態(tài)模型NExT-Chat。作者：張傲，姚遠，吉煒，劉知遠，Chua Tat-Seng
多模態(tài)對話模型Demo：https://next-chatv.github.io/
論文：https://arxiv.org/pdf/2311.04498.pdf
代碼：https://github.com/NExT-ChatV/NExT-Chat文章探索了如何在多模態(tài)模型中引入位置輸入和輸出的能力。
其中，位置輸入能力指的是根據(jù)指定的區(qū)域回答問題，比如圖1中的左圖。
而位置輸出能力指的是定位對話中提及的物體，如圖1右圖的小熊定位。圖1：位置輸入和輸出示例
現(xiàn)有的方法主要通過pix2seq的方式進行L

原文鏈接：首創(chuàng)pix2emb范式！NUS清華聯(lián)合發(fā)布NExT-Chat：對話/檢測/分割全能多模態(tài)大模型

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文