AIGC動態歡迎閱讀
原標題:空間智能版ImageNet來了!李飛飛吳佳俊團隊出品
關鍵字:視頻,模型,任務,報告,視覺
文章來源:量子位
內容字數:0字
內容摘要:
衡宇 發自 凹非寺量子位 | 公眾號 QbitAI空間智能版ImageNet來了,來自斯坦福李飛飛吳佳俊團隊!
HourVideo,一個用于評估多模態模型對長達一小時視頻理解能力的基準數據集,包含多種任務。
通過與現有模型對比,揭示當前模型在長視頻理解上與人類水平的差距。
2009年,李飛飛團隊在CVPR上首次對外展示了圖像識別數據集ImageNet,它的出現極大推動計算機視覺算法的發展——懂CV的都是知道這里面的門道有多深。
現在,隨著多模態迅猛發展,團隊認為“現有的視頻基準測試,大多集中在特定領域或短視頻上”,并且“這些數據集的平均視頻長度較短,限制了對長視頻理解能力的全面評估”。
于是,空間智能版ImageNet應運而生。
HourVideo包含500個來自Ego4D數據集的第一人稱視角視頻,時長在20到120分鐘之間,涉及77種日常活動。
評測結果表示,人類專家水平顯著優于目前長上下文多模態模型中最厲害的Gemini Pro 1.5(85.0%對37.3%)。
在多模態能力上,大模型們還任重而道遠。
HourVideo如何煉成?之所以提出HourVideo,是因為研究人員發現目
原文鏈接:空間智能版ImageNet來了!李飛飛吳佳俊團隊出品
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...