零一萬物發(fā)布Yi-VL多模態(tài)語言模型并開源，測評(píng)僅次于GPT-4V

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 AI前線

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：零一萬物發(fā)布Yi-VL多模態(tài)語言模型并開源，測評(píng)僅次于GPT-4V
關(guān)鍵字：模型,解讀,圖像,語言,數(shù)據(jù)
文章來源：AI前線
內(nèi)容字?jǐn)?shù)：4498字

內(nèi)容摘要：

作者 | 褚杏娟
1 月 22 日，零一萬物發(fā)布 Yi Vision Language（Yi-VL）多模態(tài)語言大模型，并正式面向全球開源。Yi-VL 模型基于 Yi 語言模型開發(fā)，包括 Yi-VL-34B 和 Yi-VL-6B 兩個(gè)版本。測評(píng)：僅次于 GPT-4V根據(jù)零一萬物消息，Yi-VL 模型在英文數(shù)據(jù)集 MMMU 和中文數(shù)據(jù)集 CMMMU 上取得了領(lǐng)先成績，在處理復(fù)雜跨學(xué)科任務(wù)上有很好表現(xiàn)。
MMMU（全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大規(guī)模多學(xué)科多模態(tài)理解和推理）數(shù)據(jù)集包含了 11500 個(gè)來自六大核心學(xué)科（藝術(shù)與設(shè)計(jì)、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會(huì)科學(xué)以及技術(shù)與工程）的問題，涉及高度異構(gòu)圖像類型和交織文本圖像信息，對(duì)模型的高級(jí)知覺和推理能力提出了極高要求。
Yi-VL-34B 在該測試集上以 41.6% 的準(zhǔn)確率超越了一系列多模態(tài)大模型，僅次于 GPT-4V（55.7%）。來源：https://mmmu-benchmark.github.io
同樣，在針對(duì)中文場景打造的 CM

原文鏈接：零一萬物發(fā)布Yi-VL多模態(tài)語言模型并開源，測評(píng)僅次于GPT-4V

聯(lián)系作者

文章來源：AI前線
作者微信：ai-front
作者簡介：面向AI愛好者、開發(fā)者和科學(xué)家，提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實(shí)踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課，助力你全面擁抱人工智能技術(shù)。

閱讀原文