考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架

AIGC動態(tài)歡迎閱讀

原標(biāo)題：考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架
關(guān)鍵字：模型,視頻,任務(wù),能力,基準(zhǔn)
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

VideoNIAH團隊投稿量子位 | 公眾號 QbitAI測試Gemini1.5 Pro、GPT-4o等多模態(tài)大模型的新基準(zhǔn)來了，針對視頻理解能力的那種。
直接在視頻內(nèi)容中插入多個無關(guān)的圖像或文本“針”，嚴(yán)格評估模型對時間理解的能力。
來看下面的栗子。
比如插入密碼詞“Alice”，讓模型找到這個密碼詞；插入蘋果圖片，讓模型解答這個水果是什么；又或者插入多個“針”，詢問模型插入針的順序是什么。
這就是來自中科院、人大、百川的研究團隊聯(lián)合提出的利用合成視頻構(gòu)建視頻理解測試基準(zhǔn)的方法。
該方法名為VideoNIAH，可以解耦視頻內(nèi)容與其對應(yīng)的查詢-響應(yīng)對，通過插入無關(guān)的圖像或文本“針”來生成測試數(shù)據(jù)，既保證了視頻來源的多樣性和查詢響應(yīng)的多樣性，還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。
此外，使用與現(xiàn)實視頻內(nèi)容相對應(yīng)的查詢-響應(yīng)對可能存在數(shù)據(jù)泄露風(fēng)險，影響基準(zhǔn)測試的公平性，使用合成視頻生成方法可以有效避免這一問題。
研究團隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力，同時支持長上下文評估的合成視頻理解基準(zhǔn)VNBench，包含1350個樣本

原文鏈接：考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架