AIGC動態歡迎閱讀
原標題:不讓視覺語言模型「盲猜」,性能竟直接提升一倍?
關鍵字:模型,視覺,問題,基準,語言
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com團隊的共同一作林之秋(Zhiqiu Lin)是卡內基梅隆大學的博士研究生,由Deva Ramanan教授指導,專注于視覺-語言大模型的自動評估與優化。團隊的馬紫晛(Zixian Ma)是華盛頓大學的博士研究生,由Ranjay Krishna教授指導,專注于視覺-語言大模型的評測以及與人的交互。
在諸如 MME、MMBench、MMMU 和 ScienceQA 等復雜的視覺問答(VQA)基準上,GPT-4o、Qwen2-VL 等視覺語言模型已經取得了顯著進展。然而,這些模型真的理解自然圖像嗎?近日,卡內基梅隆大學與華盛頓大學的研究團隊推出了 NaturalBench,這是一項發表于 NeurIPS’24 的以視覺為核心的 VQA 基準。它通過自然圖像上的簡單問題
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...