跟著開源的InternVL，學習如何做自己的GPT-4V

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：跟著開源的InternVL，學習如何做自己的GPT-4V
關鍵字：模型,圖像,視覺,論文,性能
文章來源：機器之心
內容字數：3587字

內容摘要：

隨著人工智能生成內容（AIGC）的快速發展，多模態大型語言模型（MLLM）在理解和生成結合視覺與語言的信息方面展現出巨大潛力。然而，現有的開源MLLM與商業模型之間存在性能差距。為了應對這一挑戰，書生圖像大模型InternVL 1.0模型作為早期的開源嘗試，通過將視覺基礎模型擴展到6億參數，并與大型語言模型進行對齊，為縮小這一差距奠定了基礎。
在1.0模型的基礎上，InternVL 1.5引入了三項創新設計，進一步提升了模型的性能：1.強大的視覺編碼器：通過連續學習策略，InternViT-6B模型的視覺理解能力得到了顯著提升，使其能夠在不同的大型語言模型中進行遷移和重用。2.動態高分辨率：InternVL 1.5能夠根據輸入圖像的寬高比和分辨率，將圖像動態劃分為不同數量的448×448圖像塊，最高支持4K分辨率的輸入，這為處理高分辨率圖像提供了更高的靈活性和效率。3.高質量雙語數據集：研究團隊精心構建了一個覆蓋常見場景和文檔圖像的高質量雙語數據集，并用英語和中文進行了問答對標注，顯著增強了模型在OCR和中文相關任務中的性能。這些創新使得InternVL 1.5在多模態任務中的性能得到

原文鏈接：跟著開源的InternVL，學習如何做自己的GPT-4V