考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架
AIGC動態(tài)歡迎閱讀
原標(biāo)題:考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架
關(guān)鍵字:模型,視頻,任務(wù),能力,基準(zhǔn)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
VideoNIAH團隊 投稿量子位 | 公眾號 QbitAI測試Gemini1.5 Pro、GPT-4o等多模態(tài)大模型的新基準(zhǔn)來了,針對視頻理解能力的那種。
直接在視頻內(nèi)容中插入多個無關(guān)的圖像或文本“針”,嚴(yán)格評估模型對時間理解的能力。
來看下面的栗子。
比如插入密碼詞“Alice”,讓模型找到這個密碼詞;插入蘋果圖片,讓模型解答這個水果是什么;又或者插入多個“針”,詢問模型插入針的順序是什么。
這就是來自中科院、人大、百川的研究團隊聯(lián)合提出的利用合成視頻構(gòu)建視頻理解測試基準(zhǔn)的方法。
該方法名為VideoNIAH,可以解耦視頻內(nèi)容與其對應(yīng)的查詢-響應(yīng)對,通過插入無關(guān)的圖像或文本“針”來生成測試數(shù)據(jù),既保證了視頻來源的多樣性和查詢響應(yīng)的多樣性,還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。
此外,使用與現(xiàn)實視頻內(nèi)容相對應(yīng)的查詢-響應(yīng)對可能存在數(shù)據(jù)泄露風(fēng)險,影響基準(zhǔn)測試的公平性,使用合成視頻生成方法可以有效避免這一問題。
研究團隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力,同時支持長上下文評估的合成視頻理解基準(zhǔn)VNBench,包含1350個樣本
原文鏈接:考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破