今日arXiv最熱CV大模型論文:國產(chǎn)開源視覺大模型InternVL 1.5發(fā)布,趕超GPT-4V水準

AIGC動態(tài)歡迎閱讀
原標題:今日arXiv最熱CV大模型論文:國產(chǎn)開源視覺大模型InternVL 1.5發(fā)布,趕超GPT-4V水準
關鍵字:模型,圖像,數(shù)據(jù),基準,分辨率
文章來源:夕小瑤科技說
內(nèi)容字數(shù):5992字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 墨墨2023年9月,OpenAI發(fā)布了多模態(tài)大模型GPT-4V,開啟了多模態(tài)研究熱潮。短短8個月時間內(nèi),閉源模型如Gemini系列, Qwen-VL-Max,開源模型如Mini-Gemini, LLaVA-NeXT百花齊放。
然而,在多模態(tài)大模型領域,閉源和開源模型依然存在著明顯的鴻溝。
開源模型能否在性能上和閉源模型并肩?
又要如何才能做到這一點?
來自上海人工智能實驗室、商湯科技研究院、清華大學等的研究者們發(fā)布了他們的答案——開源多模態(tài)大模型InternVL 1.5。
在18項主流基準中,InternVL 1.5在其中8項中達到sota!實驗結果表明,InternVL 1.5已經(jīng)有了與領先的閉源模型相媲美的水準。
論文標題:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
論文鏈接:https://arxiv.org/pdf/2404.16821
模型演示:https://internvl.opengvlab.
原文鏈接:今日arXiv最熱CV大模型論文:國產(chǎn)開源視覺大模型InternVL 1.5發(fā)布,趕超GPT-4V水準
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務合作:zym5189

粵公網(wǎng)安備 44011502001135號