從第一人稱視角理解世界，多模態模型離我們還有多遠？| CVPR 2024

AIGC動態2年前 (2024)發布大數據文摘

AIGC動態歡迎閱讀

原標題：從第一人稱視角理解世界，多模態模型離我們還有多遠？| CVPR 2024
關鍵字：模型,視角,人稱,數據,視覺
文章來源：大數據文摘
內容字數：3572字

內容摘要：

大數據文摘受權轉載自將門創投
目前很多評測工作探究視覺語言大模型在不同維度上的能力，但都忽視了真實世界中非常重要的一點：未來作為智能體或機器人的大腦，多模態模型應當具備從第一人稱視角理解世界的能力。針對以上問題，清華大學提出了第一人稱視角的視覺問答基準數據集——EgoThink，相關論文被人工智能頂級國際會議CVPR 2024錄用。EgoThink數據集定義了在真實世界中從第一人稱思考時所需的六種核心能力，并評估了十八個主流的視覺語言大模型的表現。評測結果顯示，目前階段的視覺語言大模型從第一人稱視角進行思考的能力仍有顯著欠缺，即使是GPT-4V模型在所有任務上的平均分也僅為65.5（滿分100）。論文標題：
Can Vision-Language Models Think from a First-Person Perspective?
論文鏈接：
https://arxiv.org/abs/2311.15596
項目主頁：
https://adacheng.github.io/EgoThink/
代碼鏈接：
https://github.com/AdaCheng/EgoThink
數

原文鏈接：從第一人稱視角理解世界，多模態模型離我們還有多遠？| CVPR 2024