英偉達開源NVLM 1.0屠榜多模態(tài)！純文本性能不降反升

AIGC動態(tài)歡迎閱讀

原標題：英偉達開源NVLM 1.0屠榜多模態(tài)！純文本性能不降反升
關(guān)鍵字：模型,標簽,文本,性能,視覺
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：LRS
【新智元導(dǎo)讀】NVLM 1.0系列多模態(tài)大型語言模型在視覺語言任務(wù)上達到了與GPT-4o和其他開源模型相媲美的水平，其在純文本性能甚至超過了LLM骨干模型，特別是在文本數(shù)學(xué)和編碼基準測試中，平均準確率提高了4.3個百分點。文本大模型經(jīng)過多年的發(fā)展，逐漸發(fā)展成了統(tǒng)一的純解碼器Transformer架構(gòu)。
反觀現(xiàn)有的多模態(tài)大模型架構(gòu)仍然處于混亂狀態(tài)，開源模型在選擇LLM主干、視覺編碼器以及訓(xùn)練數(shù)據(jù)方面都存在差異，性能優(yōu)異的閉源多模態(tài)大模型也沒有公布相關(guān)信息，無法直接進行模型對比和研究。
并且，不同模型在處理高分辨率圖像輸入時的設(shè)計（如動態(tài)高分辨率）雖然可以提高了與OCR相關(guān)的任務(wù)（例如，OCRBench）的性能，但與低分辨率版本模型相比，在推理相關(guān)任務(wù)（例如，MMMU）上的準確率卻會下降。
此外，雖然開源的多模態(tài)大模型在視覺-語言任務(wù)上取得了非常亮眼的基準測試結(jié)果，但在純文本任務(wù)上的性能卻有顯著下降，與領(lǐng)先的閉源模型（如GPT-4o）的表現(xiàn)并不一致。
為了改變這一現(xiàn)狀，英偉達的研究團隊最近宣布推出NVLM 1.0，在視覺-語言任務(wù)上取得了最先進的成果，能夠與最強大

原文鏈接：英偉達開源NVLM 1.0屠榜多模態(tài)！純文本性能不降反升