上海AI Lab開源首個(gè)可替代GPT-4V的多模態(tài)大模型

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:上海AI Lab開源首個(gè)可替代GPT-4V的多模態(tài)大模型
關(guān)鍵字:模型,分辨率,數(shù)據(jù),基準(zhǔn),圖像
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):4450字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 任同學(xué)與開源和閉源模型相比,InternVL 1.5 在 OCR、多模態(tài)、數(shù)學(xué)和多輪對(duì)話等 18 個(gè)基準(zhǔn)測(cè)試中的 8 個(gè)中取得了最先進(jìn)的結(jié)果。
上海AI Lab 推出的 InternVL 1.5 是一款開源的多模態(tài)大語言模型 (MLLM),旨在彌合開源模型和專有商業(yè)模型在多模態(tài)理解方面的能力差距。
論文稱,InternVL 1.5 在四個(gè)特定基準(zhǔn)測(cè)試中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等領(lǐng)先的閉源模型,特別是在與 OCR 相關(guān)的數(shù)據(jù)集中。
論文用下面一張圖非常生動(dòng)地展示了他們?yōu)?達(dá)到 AGI 星球 所做的努力:
圖中主要涉及 InternVL 的三個(gè)改進(jìn):(1)強(qiáng)視覺編碼器:為大規(guī)模視覺基礎(chǔ)模型 InternViT-6B 探索了一種持續(xù)學(xué)習(xí)策略,提高了其視覺理解能力,并使其可以在不同的LLM中遷移和重用。(2)動(dòng)態(tài)高分辨率:根據(jù)輸入圖像的長寬比和分辨率,將圖像劃分為1到40個(gè)448×448像素的圖塊,最高支持4K分辨率輸入。(3)高質(zhì)量的雙語數(shù)據(jù)集:收集了高質(zhì)量的雙語數(shù)據(jù)集,涵蓋常見場(chǎng)景、
原文鏈接:上海AI Lab開源首個(gè)可替代GPT-4V的多模態(tài)大模型
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)