AIGC動態歡迎閱讀
原標題:ViT-22B被取代了!商湯開源60億視覺參數大模型InternVL刷爆多模態榜單!
關鍵字:視覺,報告,模型,語言,圖像
文章來源:算法邦
內容字數:7130字
內容摘要:
論文鏈接:
https://arxiv.org/abs/2312.14238開源代碼:
https://github.com/OpenGVLab/InternVL01引言大型語言模型(LLMs)在開放世界語言任務中展現出令人印象深刻的能力,極大地推動了人工通用智能(AGI)系統的發展。它們的模型規模和性能仍在快速增長。利用LLMs的視覺大型語言模型(VLLMs)也取得了重大突破,實現了復雜的視覺-語言對話和互動。然而,與LLMs的快速增長相比,視覺和視覺-語言基礎模型的進展滯后。
為了將視覺模型與語言模型(LLMs)進行聯系,現有的視覺語言聯合模型(VLLMs)常常采用輕量級的“粘合”層,例如QFormer或線性投影,來對齊視覺和語言模型的特征。然而,這種對齊存在以下幾個局限性:(1)參數規模的不一致。LLMs的參數規模已經達到1000億,而廣泛使用的VLLMs的視覺編碼器仍在10億左右。這種差距可能導致LLMs的能力被低估。(2)表示的不一致。在純視覺數據上訓練的視覺模型或與BERT系列對齊的模型往往與LLMs存在表示上的不一致。(3)連接效率低下。粘合層通常是輕量級的和隨機初始化的
原文鏈接:ViT-22B被取代了!商湯開源60億視覺參數大模型InternVL刷爆多模態榜單!
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...