不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

AIGC動態歡迎閱讀

原標題：不讓視覺語言模型「盲猜」，性能竟直接提升一倍？
關鍵字：模型,視覺,問題,基準,語言
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com團隊的共同一作林之秋（Zhiqiu Lin）是卡內基梅隆大學的博士研究生，由Deva Ramanan教授指導，專注于視覺-語言大模型的自動評估與優化。團隊的馬紫晛（Zixian Ma）是華盛頓大學的博士研究生，由Ranjay Krishna教授指導，專注于視覺-語言大模型的評測以及與人的交互。
在諸如 MME、MMBench、MMMU 和 ScienceQA 等復雜的視覺問答（VQA）基準上，GPT-4o、Qwen2-VL 等視覺語言模型已經取得了顯著進展。然而，這些模型真的理解自然圖像嗎？近日，卡內基梅隆大學與華盛頓大學的研究團隊推出了 NaturalBench，這是一項發表于 NeurIPS’24 的以視覺為核心的 VQA 基準。它通過自然圖像上的簡單問題

原文鏈接：不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

聯系作者

文章來源：機器之心
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 基準 # 模型 # 視覺 # 語言 # 問題

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

AIGC動態歡迎閱讀

內容摘要：

聯系作者

網易披露反腐細節，涉案人員曝光/智界新 S7 將與華為 Mate70 系列一同發布/iPhone 18 Pro 有望搭載可變光圈

OpenAI華人VP翁荔離職：北大校友，掌管安全，最近B站分享被熱議

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

AIGC動態歡迎閱讀

內容摘要：

聯系作者

網易披露反腐細節，涉案人員曝光/智界新 S7 將與華為 Mate70 系列一同發布/iPhone 18 Pro 有望搭載可變光圈

OpenAI華人VP翁荔離職：北大校友，掌管安全，最近B站分享被熱議

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

網易披露反腐細節，涉案人員曝光/智界新 S7 將與華為 Mate70 系列一同發布/iPhone 18 Pro 有望搭載可變光圈

OpenAI華人VP翁荔離職：北大校友，掌管安全，最近B站分享被熱議