英偉達開源NVLM 1.0屠榜多模態(tài)!純文本性能不降反升
AIGC動態(tài)歡迎閱讀
原標題:英偉達開源NVLM 1.0屠榜多模態(tài)!純文本性能不降反升
關(guān)鍵字:模型,標簽,文本,性能,視覺
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】NVLM 1.0系列多模態(tài)大型語言模型在視覺語言任務(wù)上達到了與GPT-4o和其他開源模型相媲美的水平,其在純文本性能甚至超過了LLM骨干模型,特別是在文本數(shù)學(xué)和編碼基準測試中,平均準確率提高了4.3個百分點。文本大模型經(jīng)過多年的發(fā)展,逐漸發(fā)展成了統(tǒng)一的純解碼器Transformer架構(gòu)。
反觀現(xiàn)有的多模態(tài)大模型架構(gòu)仍然處于混亂狀態(tài),開源模型在選擇LLM主干、視覺編碼器以及訓(xùn)練數(shù)據(jù)方面都存在差異,性能優(yōu)異的閉源多模態(tài)大模型也沒有公布相關(guān)信息,無法直接進行模型對比和研究。
并且,不同模型在處理高分辨率圖像輸入時的設(shè)計(如動態(tài)高分辨率)雖然可以提高了與OCR相關(guān)的任務(wù)(例如,OCRBench)的性能,但與低分辨率版本模型相比,在推理相關(guān)任務(wù)(例如,MMMU)上的準確率卻會下降。
此外,雖然開源的多模態(tài)大模型在視覺-語言任務(wù)上取得了非常亮眼的基準測試結(jié)果,但在純文本任務(wù)上的性能卻有顯著下降,與領(lǐng)先的閉源模型(如GPT-4o)的表現(xiàn)并不一致。
為了改變這一現(xiàn)狀,英偉達的研究團隊最近宣布推出NVLM 1.0,在視覺-語言任務(wù)上取得了最先進的成果,能夠與最強大
原文鏈接:英偉達開源NVLM 1.0屠榜多模態(tài)!純文本性能不降反升
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: