今日arXiv最熱CV大模型論文：國產(chǎn)開源視覺大模型InternVL 1.5發(fā)布，趕超GPT-4V水準

AIGC動態(tài)2年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：今日arXiv最熱CV大模型論文：國產(chǎn)開源視覺大模型InternVL 1.5發(fā)布，趕超GPT-4V水準
關鍵字：模型,圖像,數(shù)據(jù),基準,分辨率
文章來源：夕小瑤科技說
內(nèi)容字數(shù)：5992字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 墨墨2023年9月，OpenAI發(fā)布了多模態(tài)大模型GPT-4V，開啟了多模態(tài)研究熱潮。短短8個月時間內(nèi)，閉源模型如Gemini系列, Qwen-VL-Max，開源模型如Mini-Gemini, LLaVA-NeXT百花齊放。
然而，在多模態(tài)大模型領域，閉源和開源模型依然存在著明顯的鴻溝。
開源模型能否在性能上和閉源模型并肩？
又要如何才能做到這一點？
來自上海人工智能實驗室、商湯科技研究院、清華大學等的研究者們發(fā)布了他們的答案——開源多模態(tài)大模型InternVL 1.5。
在18項主流基準中，InternVL 1.5在其中8項中達到sota！實驗結果表明，InternVL 1.5已經(jīng)有了與領先的閉源模型相媲美的水準。
論文標題：How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
論文鏈接：https://arxiv.org/pdf/2404.16821
模型演示：https://internvl.opengvlab.

原文鏈接：今日arXiv最熱CV大模型論文：國產(chǎn)開源視覺大模型InternVL 1.5發(fā)布，趕超GPT-4V水準

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機構投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務合作：zym5189

閱讀原文