國產(chǎn)多模態(tài)大模型開源!無條件免費(fèi)商用,性能超Claude 3 Sonnet
AIGC動態(tài)歡迎閱讀
原標(biāo)題:國產(chǎn)多模態(tài)大模型開源!無條件免費(fèi)商用,性能超Claude 3 Sonnet
關(guān)鍵字:騰訊,模型,圖像,場景,圖表
文章來源:量子位
內(nèi)容字?jǐn)?shù):2651字
內(nèi)容摘要:
簡曈發(fā)自 凹非寺量子位 | 公眾號 QbitAI又一個(gè)國產(chǎn)多模態(tài)大模型開源!
XVERSE-V,來自元象,還是同樣的無條件免費(fèi)商用。
此前元象曾率先發(fā)布國內(nèi)規(guī)模最大的開源大模型,如今開源家族系列又多了一個(gè)。
最新的多模態(tài)大模型支持任意寬高比圖像輸入,在主流評測中保持著效果領(lǐng)先——
在多項(xiàng)權(quán)威多模態(tài)評測中,XVERSE-V超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型。
在綜合能力測評MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。
支持任意長寬比圖像輸入傳統(tǒng)的多模態(tài)模型的圖像表示只有整體,XVERSE-V 采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。
兼顧全局的概覽信息和局部的細(xì)節(jié)信息,能夠識別和分析圖像中的細(xì)微特征,看的更清楚,理解的更準(zhǔn)確
這樣的處理方式使模型可以應(yīng)用于廣泛的領(lǐng)域,包括全景圖識別、衛(wèi)星圖像、古文物掃描分析等。
△示例- 高清全景圖識別△示例-圖片細(xì)節(jié)文字識別除了基本能力表現(xiàn)不錯(cuò),也能輕松應(yīng)對各種不同的實(shí)際應(yīng)
原文鏈接:國產(chǎn)多模態(tài)大模型開源!無條件免費(fèi)商用,性能超Claude 3 Sonnet
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破