一次可輸入多張圖像,還能多輪對(duì)話!最新開(kāi)源數(shù)據(jù)集,讓AI更接近現(xiàn)實(shí)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一次可輸入多張圖像,還能多輪對(duì)話!最新開(kāi)源數(shù)據(jù)集,讓AI更接近現(xiàn)實(shí)
關(guān)鍵字:報(bào)告,圖像,模型,基準(zhǔn),長(zhǎng)上
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
劉子煜 投稿量子位 | 公眾號(hào) QbitAI大模型對(duì)話能更接近現(xiàn)實(shí)了!
不僅可以最多輸入20張圖像,還能支持多達(dá)27輪對(duì)話??商幚砦谋?圖像tokens最多18k。
這就是最新開(kāi)源的超長(zhǎng)多圖多輪對(duì)話理解數(shù)據(jù)集MMDU(Multi-Turn Multi-Image Dialog Understanding)。
大型視覺(jué)語(yǔ)言模型(LVLMs)的核心能力之一是生成自然且有意義的回答,從而能夠與人類進(jìn)行流暢的圖文對(duì)話。
盡管目前開(kāi)源的LVLMs在如單輪單圖輸入等簡(jiǎn)化場(chǎng)景中展示出了不錯(cuò)的潛力,但在具有長(zhǎng)上下文長(zhǎng)度,且需要多輪對(duì)話和多圖輸入的真實(shí)對(duì)話場(chǎng)景中,表現(xiàn)則相對(duì)不足。
此外,現(xiàn)有的LVLM Benchmarks主要采用單項(xiàng)選擇題或簡(jiǎn)短回答的形式,難以全面評(píng)估LVLMs在真實(shí)世界人機(jī)互動(dòng)應(yīng)用中的表現(xiàn)。
為此,研究團(tuán)隊(duì)在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評(píng)測(cè)基準(zhǔn)MMDU及大規(guī)模指令微調(diào)數(shù)據(jù)集MMDU-45k,旨在評(píng)估
原文鏈接:一次可輸入多張圖像,還能多輪對(duì)話!最新開(kāi)源數(shù)據(jù)集,讓AI更接近現(xiàn)實(shí)
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破