AIGC動態歡迎閱讀
原標題:中科大等意外發現:大模型不看圖也能正確回答視覺問題!
關鍵字:模型,語言,樣本,問題,基準
文章來源:量子位
內容字數:4717字
內容摘要:
陳林 投稿 凹非寺量子位 | 公眾號 QbitAI大模型不看圖,竟也能正確回答視覺問題?!
中科大、香港中文大學、上海AI Lab的研究團隊團隊意外發現了這一離奇現象。
他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是閉源還是開源,語言模型還是多模態,竟然只根據在多模態基準MMMU測試中的問題和選項文本,就能獲得不錯的成績。
△藍色表示能看到圖的LVLMs,橘色和綠色分別表示只接收問題和選項文本的LLMs和LVLMs(LLM:大語言模型;LVLMs:多模態大模型)
不知道的還以為是大模型的隱藏技能被發現了。
有網友發出靈魂拷問:我們評估多模態模型的方確嗎?
這一結果也激起了研究者們的好奇,于是他們決定對此展開進一步探究。
大模型隱藏技能被發現?針對現有的評估樣本和評估過程,研究人員認為造成這種現象的兩個主要問題。
第一,一些多模態評估樣本缺少對視覺內容的依賴性。
這種問題反映了現有的benchmark中的不合理之處。這個問題包含了兩種情況:
一種是有些評估樣本的答案可以被蘊含在了題目和選項中從
原文鏈接:中科大等意外發現:大模型不看圖也能正確回答視覺問題!
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...