VE-Bench – 北京大學開源首個針對視頻編輯質量評估的新指標
VE-Bench是什么
VE-Bench 是由北京大學的研究團隊 MMCAL 最新推出的首個專門針對視頻編輯質量評估的指標。其設計目標是與人類的感知能力高度契合,從而更精確地評估視頻編輯的效果。VE-Bench QA 在評估編輯視頻時,不僅關注傳統的視頻質量評估方法所強調的審美和失真等視覺質量指標,還特別注重文本與視頻之間的對齊,以及源視頻與編輯后視頻之間的相關性建模。
VE-Bench 包含兩個主要組成部分:VE-Bench DB 和 VE-Bench QA。VE-Bench DB 是一個視頻質量評估數據庫,包含豐富的源視頻、編輯指令、不同視頻編輯模型的編輯結果,以及24名來自不同背景參與者的主觀評分樣本,總計達到28,080個評分樣本。VE-Bench QA 是一個量化工具,旨在為文本驅動的視頻編輯任務提供與人類感知相一致的評估標準。VE-Bench 的代碼與數據可在 GitHub 問。
VE-Bench的主要功能
- 視頻質量評估模型(VE-Bench QA):該模型旨在為編輯后的視頻提供與人類感知一致的評估標準,涵蓋傳統視頻質量評估方法關注的審美、失真等視覺指標,同時重點關注文本與視頻的對齊及源視頻與編輯后視頻之間的相關性。
- 視頻質量評估數據庫(VE-Bench DB):VE-Bench DB 是一個專為視頻編輯構建的質量評估數據庫,包含豐富的源視頻、編輯指令、不同視頻編輯模型的輸出,以及24名不同背景參與者的主觀評分樣本,總計28,080個評分樣本。
- 文本-視頻一致性評估:VE-Bench QA 采用 BLIP 進行視頻與文本之間的相關性建模,通過在 BLIP 的視覺分支上添加 Temporal Adapter,將其擴展到三維,并結合文本分支的結果進行交叉注意力輸出。
- 源視頻-編輯后視頻動態相關性評估:VE-Bench QA 借助時空Transformer將源視頻和編輯后視頻投影到高維空間,然后通過注意力機制評估二者之間的相關性,并最終通過回歸分析得出結果。
- 傳統視覺質量評估:VE-Bench QA 參考了自然場景視頻質量評價的優秀研究成果 DOVER,通過在美學和失真方面的預訓練網絡輸出結果。
- 多維度評估:VE-Bench QA 從文本-視頻一致性、源視頻-編輯后視頻動態相關性和傳統視覺質量三個維度對文本驅動的視頻編輯進行全面評估。
VE-Bench的技術原理
- 線性層回歸:各個分支的輸出通過線性層回歸,最終生成綜合評分。
- 深度學習算法:VE-Bench 運用了先進的深度學習算法,通過對大量真實視頻樣本的學習,建立了能夠模擬人類視覺和聽覺系統的模型。
- 多模態學習框架:VE-Bench 能夠同時處理視頻中的圖像、音頻和文本信息,通過大量真實世界視頻樣本的訓練,學會分析視頻的技術參數,捕捉那些難以量化的藝術美感和情感表達。
VE-Bench的項目地址
- Github倉庫:https://github.com/littlespray/VE-Bench
- arXiv技術論文:https://arxiv.org/pdf/2408.11481
VE-Bench的應用場景
- 電影制作:VE-Bench 可以在電影后期制作中,輔助導演和剪輯師分析每個鏡頭的色彩、光影效果及的符合度,確保影片情感氛圍的準確傳達。
- 短視頻平臺內容優化:短視頻創作者可以利用 VE-Bench 實時監測視頻的視覺效果、音頻質量和敘事結構,依據系統建議進行優化,提升視頻的整體觀感和互動率。
- 廣告行業精準營銷:VE-Bench 能夠分析視頻內容,幫助廣告行業進行精準營銷,確保廣告視頻與目標受眾的情感和視覺預期相匹配。
- 視頻編輯質量評估:VE-Bench 關注視頻編輯前后結果與原始視頻之間的關系,例如在“摘掉女孩的耳環”的任務中,需要保持人物ID,源視頻與編輯結果之間應具備較強的語義相關性。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...