一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI更接近現(xiàn)實

AIGC動態(tài)1年前 (2024)發(fā)布量子位

一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI聊天更接近現(xiàn)實

AIGC動態(tài)歡迎閱讀

原標(biāo)題：一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI更接近現(xiàn)實
關(guān)鍵字：報告,圖像,模型,基準(zhǔn),長上
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

劉子煜投稿量子位 | 公眾號 QbitAI大模型對話能更接近現(xiàn)實了！
不僅可以最多輸入20張圖像，還能支持多達(dá)27輪對話。可處理文本+圖像tokens最多18k。
這就是最新開源的超長多圖多輪對話理解數(shù)據(jù)集MMDU（Multi-Turn Multi-Image Dialog Understanding）。
大型視覺語言模型（LVLMs）的核心能力之一是生成自然且有意義的回答，從而能夠與人類進(jìn)行流暢的圖文對話。
盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力，但在具有長上下文長度，且需要多輪對話和多圖輸入的真實對話場景中，表現(xiàn)則相對不足。
此外，現(xiàn)有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式，難以全面評估LVLMs在真實世界人機(jī)互動應(yīng)用中的表現(xiàn)。
為此，研究團(tuán)隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準(zhǔn)MMDU及大規(guī)模指令微調(diào)數(shù)據(jù)集MMDU-45k，旨在評估

原文鏈接：一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI更接近現(xiàn)實