世界頂尖多模態(tài)大模型開源!又是零一萬物,又是李開復(fù)

AIGC動態(tài)歡迎閱讀
原標(biāo)題:世界頂尖多模態(tài)大模型開源!又是零一萬物,又是李開復(fù)
關(guān)鍵字:模型,圖像,語言,文本,能力
文章來源:量子位
內(nèi)容字?jǐn)?shù):3990字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號 QbitAI領(lǐng)跑中英文兩大權(quán)威榜單,李開復(fù)零一萬物交出多模態(tài)大模型答卷!
距離其首款開源大模型Yi-34B和Yi-6B的發(fā)布,僅間隔不到三個月的時間。
模型名為Yi Vision Language(Yi-VL),現(xiàn)已正式面向全球開源。
同屬Yi系列,同樣具有兩個版本:
Yi-VL-34B和Yi-VL-6B。
先來看兩個例子,感受一波Yi-VL在圖文對話等多元場景中的表現(xiàn):
Yi-VL對整幅圖做了詳細(xì)分析,不僅說明了指示牌上的內(nèi)容,甚至連“天花板”都有照顧到。
中文方面,Yi-VL也能清晰有條理地準(zhǔn)確表達(dá):
此外,官方也給出了測試結(jié)果。
Yi-VL-34B在英文數(shù)據(jù)集MMMU上準(zhǔn)確率41.6%,僅次于準(zhǔn)確率55.7%的GPT-4V,超越一系列多模態(tài)大模型。
而在中文數(shù)據(jù)集CMMMU上,Yi-VL-34B準(zhǔn)確率36.5%,領(lǐng)先于當(dāng)前最前沿的開源多模態(tài)模型。
Yi-VL長啥樣?Yi-VL基于Yi語言模型研發(fā),可以看到基于Yi語言模型的強大文本理解能力,只需對圖片進行對齊,就可以得到不錯的多模態(tài)視覺語言模型——這也是Yi-VL模型的核心亮點之一。
在架構(gòu)設(shè)
原文鏈接:世界頂尖多模態(tài)大模型開源!又是零一萬物,又是李開復(fù)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號