從第一人稱視角理解世界,多模態(tài)模型離我們還有多遠(yuǎn)?| CVPR 2024
AIGC動態(tài)歡迎閱讀
原標(biāo)題:從第一人稱視角理解世界,多模態(tài)模型離我們還有多遠(yuǎn)?| CVPR 2024
關(guān)鍵字:模型,視角,人稱,數(shù)據(jù),視覺
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):3572字
內(nèi)容摘要:
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投
目前很多評測工作探究視覺語言大模型在不同維度上的能力,但都忽視了真實世界中非常重要的一點:未來作為智能體或機器人的大腦,多模態(tài)模型應(yīng)當(dāng)具備從第一人稱視角理解世界的能力。針對以上問題,清華大學(xué)提出了第一人稱視角的視覺問答基準(zhǔn)數(shù)據(jù)集——EgoThink,相關(guān)論文被人工智能頂級國際會議CVPR 2024錄用。EgoThink數(shù)據(jù)集定義了在真實世界中從第一人稱思考時所需的六種核心能力,并評估了十八個主流的視覺語言大模型的表現(xiàn)。評測結(jié)果顯示,目前階段的視覺語言大模型從第一人稱視角進行思考的能力仍有顯著欠缺,即使是GPT-4V模型在所有任務(wù)上的平均分也僅為65.5(滿分100)。論文標(biāo)題:
Can Vision-Language Models Think from a First-Person Perspective?
論文鏈接:
https://arxiv.org/abs/2311.15596
項目主頁:
https://adacheng.github.io/EgoThink/
代碼鏈接:
https://github.com/AdaCheng/EgoThink
數(shù)
原文鏈接:從第一人稱視角理解世界,多模態(tài)模型離我們還有多遠(yuǎn)?| CVPR 2024
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化