AIGC動態歡迎閱讀
原標題:元象首個多模態大模型 XVERSE-V 開源,刷新權威大模型榜單,支持任意寬高比輸入
關鍵字:騰訊,模型,華為,圖像,場景
文章來源:AI科技評論
內容字數:4310字
內容摘要:
人類獲取的信息83%來自視覺,圖文多模態大模型能感知更豐富和精確的真實世界信息,構建更全面的認知智能,從而向AGI(通用人工智能)邁出更大步伐。
元象今日發布多模態大模型 XVERSE-V ,支持任意寬高比圖像輸入,在主流評測中效果領先。該模型全開源,無條件免費商用,持續推動海量中小企業、研究者和開發者的研發和應用創新。
XVERSE-V 性能優異,在多項權威多模態評測中超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型,在綜合能力測評MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。
圖. 多模態大模型綜合評測1融合整體和局部的高清圖像表示傳統的多模態模型的圖像表示只有整體,XVERSE-V 創新性地采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。兼顧全局的概覽信息和局部的細節信息,能夠識別和分析圖像中的細微特征,看的更清楚,理解的更準確。注:Concate* 表示按列進行拼接
這樣的處理方式使模型可以應用于廣泛的領域,包括全景圖識別
原文鏈接:元象首個多模態大模型 XVERSE-V 開源,刷新權威大模型榜單,支持任意寬高比輸入
聯系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...