AIGC動態歡迎閱讀
原標題:今日arXiv最熱CV大模型論文:國產開源視覺大模型InternVL 1.5發布,趕超GPT-4V水準
關鍵字:模型,圖像,數據,基準,分辨率
文章來源:夕小瑤科技說
內容字數:5992字
內容摘要:
夕小瑤科技說 原創作者 | 墨墨2023年9月,OpenAI發布了多模態大模型GPT-4V,開啟了多模態研究熱潮。短短8個月時間內,閉源模型如Gemini系列, Qwen-VL-Max,開源模型如Mini-Gemini, LLaVA-NeXT百花齊放。
然而,在多模態大模型領域,閉源和開源模型依然存在著明顯的鴻溝。
開源模型能否在性能上和閉源模型并肩?
又要如何才能做到這一點?
來自上海人工智能實驗室、商湯科技研究院、清華大學等的研究者們發布了他們的答案——開源多模態大模型InternVL 1.5。
在18項主流基準中,InternVL 1.5在其中8項中達到sota!實驗結果表明,InternVL 1.5已經有了與領先的閉源模型相媲美的水準。
論文標題:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
論文鏈接:https://arxiv.org/pdf/2404.16821
模型演示:https://internvl.opengvlab.
原文鏈接:今日arXiv最熱CV大模型論文:國產開源視覺大模型InternVL 1.5發布,趕超GPT-4V水準
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189