空間智能版ImageNet來了！李飛飛吳佳俊團隊出品

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：空間智能版ImageNet來了！李飛飛吳佳俊團隊出品
關鍵字：視頻,模型,任務,報告,視覺
文章來源：量子位
內容字數：0字

內容摘要：

衡宇發自凹非寺量子位 | 公眾號 QbitAI空間智能版ImageNet來了，來自斯坦福李飛飛吳佳俊團隊！
HourVideo，一個用于評估多模態模型對長達一小時視頻理解能力的基準數據集，包含多種任務。
通過與現有模型對比，揭示當前模型在長視頻理解上與人類水平的差距。
2009年，李飛飛團隊在CVPR上首次對外展示了圖像識別數據集ImageNet，它的出現極大推動計算機視覺算法的發展——懂CV的都是知道這里面的門道有多深。
現在，隨著多模態迅猛發展，團隊認為“現有的視頻基準測試，大多集中在特定領域或短視頻上”，并且“這些數據集的平均視頻長度較短，限制了對長視頻理解能力的全面評估”。
于是，空間智能版ImageNet應運而生。
HourVideo包含500個來自Ego4D數據集的第一人稱視角視頻，時長在20到120分鐘之間，涉及77種日常活動。
評測結果表示，人類專家水平顯著優于目前長上下文多模態模型中最厲害的Gemini Pro 1.5（85.0%對37.3%）。
在多模態能力上，大模型們還任重而道遠。
HourVideo如何煉成？之所以提出HourVideo，是因為研究人員發現目

原文鏈接：空間智能版ImageNet來了！李飛飛吳佳俊團隊出品