上海AI Lab開源首個(gè)可替代GPT-4V的多模態(tài)大模型

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布夕小瑤科技說

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：上海AI Lab開源首個(gè)可替代GPT-4V的多模態(tài)大模型
關(guān)鍵字：模型,分辨率,數(shù)據(jù),基準(zhǔn),圖像
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：4450字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 任同學(xué)與開源和閉源模型相比，InternVL 1.5 在 OCR、多模態(tài)、數(shù)學(xué)和多輪對(duì)話等 18 個(gè)基準(zhǔn)測(cè)試中的 8 個(gè)中取得了最先進(jìn)的結(jié)果。
上海AI Lab 推出的 InternVL 1.5 是一款開源的多模態(tài)大語言模型 (MLLM)，旨在彌合開源模型和專有商業(yè)模型在多模態(tài)理解方面的能力差距。
論文稱，InternVL 1.5 在四個(gè)特定基準(zhǔn)測(cè)試中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等領(lǐng)先的閉源模型，特別是在與 OCR 相關(guān)的數(shù)據(jù)集中。
論文用下面一張圖非常生動(dòng)地展示了他們?yōu)?達(dá)到 AGI 星球所做的努力：
圖中主要涉及 InternVL 的三個(gè)改進(jìn)：（1）強(qiáng)視覺編碼器：為大規(guī)模視覺基礎(chǔ)模型 InternViT-6B 探索了一種持續(xù)學(xué)習(xí)策略，提高了其視覺理解能力，并使其可以在不同的LLM中遷移和重用。（2）動(dòng)態(tài)高分辨率：根據(jù)輸入圖像的長寬比和分辨率，將圖像劃分為1到40個(gè)448×448像素的圖塊，最高支持4K分辨率輸入。（3）高質(zhì)量的雙語數(shù)據(jù)集：收集了高質(zhì)量的雙語數(shù)據(jù)集，涵蓋常見場(chǎng)景、

原文鏈接：上海AI Lab開源首個(gè)可替代GPT-4V的多模態(tài)大模型

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文