AIGC動態歡迎閱讀
原標題:從第一人稱視角理解世界,多模態模型離我們還有多遠?| CVPR 2024
關鍵字:模型,視角,人稱,數據,視覺
文章來源:大數據文摘
內容字數:3572字
內容摘要:
大數據文摘受權轉載自將門創投
目前很多評測工作探究視覺語言大模型在不同維度上的能力,但都忽視了真實世界中非常重要的一點:未來作為智能體或機器人的大腦,多模態模型應當具備從第一人稱視角理解世界的能力。針對以上問題,清華大學提出了第一人稱視角的視覺問答基準數據集——EgoThink,相關論文被人工智能頂級國際會議CVPR 2024錄用。EgoThink數據集定義了在真實世界中從第一人稱思考時所需的六種核心能力,并評估了十八個主流的視覺語言大模型的表現。評測結果顯示,目前階段的視覺語言大模型從第一人稱視角進行思考的能力仍有顯著欠缺,即使是GPT-4V模型在所有任務上的平均分也僅為65.5(滿分100)。論文標題:
Can Vision-Language Models Think from a First-Person Perspective?
論文鏈接:
https://arxiv.org/abs/2311.15596
項目主頁:
https://adacheng.github.io/EgoThink/
代碼鏈接:
https://github.com/AdaCheng/EgoThink
數
原文鏈接:從第一人稱視角理解世界,多模態模型離我們還有多遠?| CVPR 2024
聯系作者
文章來源:大數據文摘
作者微信:BigDataDigest
作者簡介:普及數據思維,傳播數據文化
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...