AIGC動態歡迎閱讀
原標題:上海AI Lab開源首個可替代GPT-4V的多模態大模型
關鍵字:模型,分辨率,數據,基準,圖像
文章來源:夕小瑤科技說
內容字數:4450字
內容摘要:
夕小瑤科技說 原創作者 | 任同學與開源和閉源模型相比,InternVL 1.5 在 OCR、多模態、數學和多輪對話等 18 個基準測試中的 8 個中取得了最先進的結果。
上海AI Lab 推出的 InternVL 1.5 是一款開源的多模態大語言模型 (MLLM),旨在彌合開源模型和專有商業模型在多模態理解方面的能力差距。
論文稱,InternVL 1.5 在四個特定基準測試中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等領先的閉源模型,特別是在與 OCR 相關的數據集中。
論文用下面一張圖非常生動地展示了他們為 達到 AGI 星球 所做的努力:
圖中主要涉及 InternVL 的三個改進:(1)強視覺編碼器:為大規模視覺基礎模型 InternViT-6B 探索了一種持續學習策略,提高了其視覺理解能力,并使其可以在不同的LLM中遷移和重用。(2)動態高分辨率:根據輸入圖像的長寬比和分辨率,將圖像劃分為1到40個448×448像素的圖塊,最高支持4K分辨率輸入。(3)高質量的雙語數據集:收集了高質量的雙語數據集,涵蓋常見場景、
原文鏈接:上海AI Lab開源首個可替代GPT-4V的多模態大模型
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189