VE-Bench – 北京大學(xué)開(kāi)源首個(gè)針對(duì)視頻編輯質(zhì)量評(píng)估的新指標(biāo)
VE-Bench是什么
VE-Bench 是由北京大學(xué)的研究團(tuán)隊(duì) MMCAL 最新推出的首個(gè)專門(mén)針對(duì)視頻編輯質(zhì)量評(píng)估的指標(biāo)。其設(shè)計(jì)目標(biāo)是與人類的感知能力高度契合,從而更精確地評(píng)估視頻編輯的效果。VE-Bench QA 在評(píng)估編輯視頻時(shí),不僅關(guān)注傳統(tǒng)的視頻質(zhì)量評(píng)估方法所強(qiáng)調(diào)的審美和失真等視覺(jué)質(zhì)量指標(biāo),還特別注重文本與視頻之間的對(duì)齊,以及源視頻與編輯后視頻之間的相關(guān)性建模。
VE-Bench 包含兩個(gè)主要組成部分:VE-Bench DB 和 VE-Bench QA。VE-Bench DB 是一個(gè)視頻質(zhì)量評(píng)估數(shù)據(jù)庫(kù),包含豐富的源視頻、編輯指令、不同視頻編輯模型的編輯結(jié)果,以及24名來(lái)自不同背景參與者的主觀評(píng)分樣本,總計(jì)達(dá)到28,080個(gè)評(píng)分樣本。VE-Bench QA 是一個(gè)量化工具,旨在為文本驅(qū)動(dòng)的視頻編輯任務(wù)提供與人類感知相一致的評(píng)估標(biāo)準(zhǔn)。VE-Bench 的代碼與數(shù)據(jù)可在 GitHub 問(wèn)。

VE-Bench的主要功能
- 視頻質(zhì)量評(píng)估模型(VE-Bench QA):該模型旨在為編輯后的視頻提供與人類感知一致的評(píng)估標(biāo)準(zhǔn),涵蓋傳統(tǒng)視頻質(zhì)量評(píng)估方法關(guān)注的審美、失真等視覺(jué)指標(biāo),同時(shí)重點(diǎn)關(guān)注文本與視頻的對(duì)齊及源視頻與編輯后視頻之間的相關(guān)性。
- 視頻質(zhì)量評(píng)估數(shù)據(jù)庫(kù)(VE-Bench DB):VE-Bench DB 是一個(gè)專為視頻編輯構(gòu)建的質(zhì)量評(píng)估數(shù)據(jù)庫(kù),包含豐富的源視頻、編輯指令、不同視頻編輯模型的輸出,以及24名不同背景參與者的主觀評(píng)分樣本,總計(jì)28,080個(gè)評(píng)分樣本。
- 文本-視頻一致性評(píng)估:VE-Bench QA 采用 BLIP 進(jìn)行視頻與文本之間的相關(guān)性建模,通過(guò)在 BLIP 的視覺(jué)分支上添加 Temporal Adapter,將其擴(kuò)展到三維,并結(jié)合文本分支的結(jié)果進(jìn)行交叉注意力輸出。
- 源視頻-編輯后視頻動(dòng)態(tài)相關(guān)性評(píng)估:VE-Bench QA 借助時(shí)空Transformer將源視頻和編輯后視頻投影到高維空間,然后通過(guò)注意力機(jī)制評(píng)估二者之間的相關(guān)性,并最終通過(guò)回歸分析得出結(jié)果。
- 傳統(tǒng)視覺(jué)質(zhì)量評(píng)估:VE-Bench QA 參考了自然場(chǎng)景視頻質(zhì)量評(píng)價(jià)的優(yōu)秀研究成果 DOVER,通過(guò)在美學(xué)和失真方面的預(yù)訓(xùn)練網(wǎng)絡(luò)輸出結(jié)果。
- 多維度評(píng)估:VE-Bench QA 從文本-視頻一致性、源視頻-編輯后視頻動(dòng)態(tài)相關(guān)性和傳統(tǒng)視覺(jué)質(zhì)量三個(gè)維度對(duì)文本驅(qū)動(dòng)的視頻編輯進(jìn)行全面評(píng)估。
VE-Bench的技術(shù)原理
- 線性層回歸:各個(gè)分支的輸出通過(guò)線性層回歸,最終生成綜合評(píng)分。
- 深度學(xué)習(xí)算法:VE-Bench 運(yùn)用了先進(jìn)的深度學(xué)習(xí)算法,通過(guò)對(duì)大量真實(shí)視頻樣本的學(xué)習(xí),建立了能夠模擬人類視覺(jué)和聽(tīng)覺(jué)系統(tǒng)的模型。
- 多模態(tài)學(xué)習(xí)框架:VE-Bench 能夠同時(shí)處理視頻中的圖像、音頻和文本信息,通過(guò)大量真實(shí)世界視頻樣本的訓(xùn)練,學(xué)會(huì)分析視頻的技術(shù)參數(shù),捕捉那些難以量化的藝術(shù)美感和情感表達(dá)。
VE-Bench的項(xiàng)目地址
- Github倉(cāng)庫(kù):https://github.com/littlespray/VE-Bench
- arXiv技術(shù)論文:https://arxiv.org/pdf/2408.11481
VE-Bench的應(yīng)用場(chǎng)景
- 電影制作:VE-Bench 可以在電影后期制作中,輔助導(dǎo)演和剪輯師分析每個(gè)鏡頭的色彩、光影效果及的符合度,確保影片情感氛圍的準(zhǔn)確傳達(dá)。
- 短視頻平臺(tái)內(nèi)容優(yōu)化:短視頻創(chuàng)作者可以利用 VE-Bench 實(shí)時(shí)監(jiān)測(cè)視頻的視覺(jué)效果、音頻質(zhì)量和敘事結(jié)構(gòu),依據(jù)系統(tǒng)建議進(jìn)行優(yōu)化,提升視頻的整體觀感和互動(dòng)率。
- 廣告行業(yè)精準(zhǔn)營(yíng)銷:VE-Bench 能夠分析視頻內(nèi)容,幫助廣告行業(yè)進(jìn)行精準(zhǔn)營(yíng)銷,確保廣告視頻與目標(biāo)受眾的情感和視覺(jué)預(yù)期相匹配。
- 視頻編輯質(zhì)量評(píng)估:VE-Bench 關(guān)注視頻編輯前后結(jié)果與原始視頻之間的關(guān)系,例如在“摘掉女孩的耳環(huán)”的任務(wù)中,需要保持人物ID,源視頻與編輯結(jié)果之間應(yīng)具備較強(qiáng)的語(yǔ)義相關(guān)性。
# AI工具# AI項(xiàng)目和框架# 多場(chǎng)景適應(yīng)能力# 實(shí)時(shí)監(jiān)控分析# 數(shù)據(jù)驅(qū)動(dòng)決策# 智能視覺(jué)識(shí)別# 自動(dòng)化質(zhì)量檢測(cè)
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)