一次可輸入多張圖像,還能多輪對話!最新開源數(shù)據(jù)集,讓AI更接近現(xiàn)實

AIGC動態(tài)歡迎閱讀
原標(biāo)題:一次可輸入多張圖像,還能多輪對話!最新開源數(shù)據(jù)集,讓AI更接近現(xiàn)實
關(guān)鍵字:報告,圖像,模型,基準(zhǔn),長上
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
劉子煜 投稿量子位 | 公眾號 QbitAI大模型對話能更接近現(xiàn)實了!
不僅可以最多輸入20張圖像,還能支持多達(dá)27輪對話。可處理文本+圖像tokens最多18k。
這就是最新開源的超長多圖多輪對話理解數(shù)據(jù)集MMDU(Multi-Turn Multi-Image Dialog Understanding)。
大型視覺語言模型(LVLMs)的核心能力之一是生成自然且有意義的回答,從而能夠與人類進(jìn)行流暢的圖文對話。
盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力,但在具有長上下文長度,且需要多輪對話和多圖輸入的真實對話場景中,表現(xiàn)則相對不足。
此外,現(xiàn)有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式,難以全面評估LVLMs在真實世界人機(jī)互動應(yīng)用中的表現(xiàn)。
為此,研究團(tuán)隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準(zhǔn)MMDU及大規(guī)模指令微調(diào)數(shù)據(jù)集MMDU-45k,旨在評估
原文鏈接:一次可輸入多張圖像,還能多輪對話!最新開源數(shù)據(jù)集,讓AI更接近現(xiàn)實
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號