AIGC動態歡迎閱讀
原標題:考考大模型視頻理解能力,中科院人大百川提出新基準合成框架
關鍵字:模型,視頻,任務,能力,基準
文章來源:量子位
內容字數:0字
內容摘要:
VideoNIAH團隊 投稿量子位 | 公眾號 QbitAI測試Gemini1.5 Pro、GPT-4o等多模態大模型的新基準來了,針對視頻理解能力的那種。
直接在視頻內容中插入多個無關的圖像或文本“針”,嚴格評估模型對時間理解的能力。
來看下面的栗子。
比如插入密碼詞“Alice”,讓模型找到這個密碼詞;插入蘋果圖片,讓模型解答這個水果是什么;又或者插入多個“針”,詢問模型插入針的順序是什么。
這就是來自中科院、人大、百川的研究團隊聯合提出的利用合成視頻構建視頻理解測試基準的方法。
該方法名為VideoNIAH,可以解耦視頻內容與其對應的查詢-響應對,通過插入無關的圖像或文本“針”來生成測試數據,既保證了視頻來源的多樣性和查詢響應的多樣性,還通過插入多個針來嚴格評估模型對時間理解的能力。
此外,使用與現實視頻內容相對應的查詢-響應對可能存在數據泄露風險,影響基準測試的公平性,使用合成視頻生成方法可以有效避免這一問題。
研究團隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細粒度理解能力和時空建模能力,同時支持長上下文評估的合成視頻理解基準VNBench,包含1350個樣本
原文鏈接:考考大模型視頻理解能力,中科院人大百川提出新基準合成框架
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...