VideoReward – 港中文、清華、快手等聯(lián)合推出的視頻生成偏好數(shù)據(jù)集及獎(jiǎng)勵(lì)模型
VideoReward 是由香港中文大學(xué)、清華大學(xué)及快手科技等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的一套視頻生成偏好數(shù)據(jù)集和獎(jiǎng)勵(lì)模型。該系統(tǒng)包含了182,000條標(biāo)注數(shù)據(jù),重點(diǎn)關(guān)注視覺(jué)質(zhì)量、質(zhì)量和文本對(duì)齊三個(gè)重要維度,旨在提升視頻生成模型的性能。通過(guò)基于人類反饋的獎(jiǎng)勵(lì)模型,以及先進(jìn)的多維度對(duì)齊算法(如Flow-DPO和Flow-RWR)和推理技術(shù)(如Flow-NRG),VideoReward 能夠顯著增強(qiáng)視頻生成的連貫性和文本一致性,且支持用戶個(gè)性化需求。
VideoReward是什么
VideoReward 是一個(gè)由香港中文大學(xué)、清華大學(xué)與快手科技共同創(chuàng)建的視頻生成偏好數(shù)據(jù)集及其獎(jiǎng)勵(lì)模型。該數(shù)據(jù)集包含182,000條標(biāo)注數(shù)據(jù),涵蓋了視覺(jué)質(zhì)量(VQ)、質(zhì)量(MQ)和文本對(duì)齊(TA)三個(gè)關(guān)鍵方面,用于捕捉用戶對(duì)生成視頻的偏好。其獎(jiǎng)勵(lì)模型基于人類反饋,通過(guò)多維度對(duì)齊算法(如Flow-DPO、Flow-RWR)及推理技術(shù)(如Flow-NRG),顯著提升了視頻生成的連貫性和文本對(duì)齊效果。Flow-NRG還允許用戶在推理時(shí)自定義權(quán)重,以滿足個(gè)性化需求。

VideoReward的主要功能
- 構(gòu)建大規(guī)模偏好數(shù)據(jù)集:VideoReward 提供182,000條標(biāo)注數(shù)據(jù),涵蓋視覺(jué)質(zhì)量、質(zhì)量和文本對(duì)齊三個(gè)維度,旨在全面捕捉用戶對(duì)生成視頻的偏好。
- 多維度獎(jiǎng)勵(lì)模型:該系統(tǒng)基于強(qiáng)化學(xué)習(xí),引入了包括Flow-DPO和Flow-RWR在內(nèi)的三種對(duì)齊算法,以及推理時(shí)的Flow-NRG技術(shù),以優(yōu)化視頻生成過(guò)程。
- 個(gè)性化需求支持:Flow-NRG技術(shù)允許用戶在推理階段為多個(gè)目標(biāo)設(shè)置自定義權(quán)重,以滿足個(gè)性化的視頻質(zhì)量需求。
- 提升視頻生成質(zhì)量:通過(guò)整合人類反饋,VideoReward 能顯著提高視頻生成的連貫性及與提示文本的對(duì)齊效果,超越現(xiàn)有獎(jiǎng)勵(lì)模型的表現(xiàn)。
VideoReward的技術(shù)原理
- 對(duì)齊算法:VideoReward 采用三種專為流模型設(shè)計(jì)的對(duì)齊算法,旨在優(yōu)化視頻生成質(zhì)量:
- Flow-DPO(直接偏好優(yōu)化):在訓(xùn)練過(guò)程中,直接優(yōu)化模型以更好地匹配人類的偏好視頻對(duì)。
- Flow-RWR(獎(jiǎng)勵(lì)加權(quán)回歸):通過(guò)獎(jiǎng)勵(lì)加權(quán)來(lái)優(yōu)化模型,更加符合用戶反饋。
- Flow-NRG(噪聲視頻獎(jiǎng)勵(lì)引導(dǎo)):在推理階段,將獎(jiǎng)勵(lì)直接應(yīng)用于噪聲視頻,支持用戶自定義權(quán)重以滿足多樣化需求。
- 人類反饋優(yōu)化:依靠人類反饋,VideoReward 能有效提升視頻生成的連貫性及與提示文本的對(duì)齊效果,實(shí)驗(yàn)表明其性能優(yōu)于現(xiàn)有獎(jiǎng)勵(lì)模型,F(xiàn)low-DPO在效果上優(yōu)于Flow-RWR和標(biāo)準(zhǔn)監(jiān)督微調(diào)方法。
VideoReward的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://gongyeliu.github.io/videoalign/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.13918
VideoReward的應(yīng)用場(chǎng)景
- 視頻生成質(zhì)量?jī)?yōu)化:利用大規(guī)模的人類偏好數(shù)據(jù)集和多維度獎(jiǎng)勵(lì)模型,VideoReward顯著提高了視頻生成的質(zhì)量,尤其在視覺(jué)、連貫性及文本對(duì)齊方面表現(xiàn)突出。
- 個(gè)性化視頻生成:通過(guò)Flow-NRG技術(shù),VideoReward允許用戶在生成過(guò)程中為各項(xiàng)目標(biāo)設(shè)置自定義權(quán)重,以滿足其獨(dú)特的視頻質(zhì)量需求。
- 視頻生成模型的訓(xùn)練與微調(diào):提供的多維度獎(jiǎng)勵(lì)模型和對(duì)齊算法(如Flow-DPO和Flow-RWR)可以用于訓(xùn)練和微調(diào)視頻生成模型。
- 用戶偏好分析與研究:該數(shù)據(jù)集涵蓋多個(gè)維度,適用于對(duì)用戶偏好的深入分析與研究。
- 視頻內(nèi)容創(chuàng)作與編輯:在視頻創(chuàng)作與編輯領(lǐng)域,VideoReward能夠生成更高質(zhì)量的視頻素材,從而提升創(chuàng)作效率。
常見(jiàn)問(wèn)題
- VideoReward如何提升視頻生成質(zhì)量?通過(guò)多維度的獎(jiǎng)勵(lì)模型與人類反饋,VideoReward能夠有效優(yōu)化視頻生成的連貫性和文本對(duì)齊效果。
- 用戶如何自定義生成視頻的質(zhì)量?用戶可以通過(guò)Flow-NRG技術(shù),在推理時(shí)為多個(gè)目標(biāo)設(shè)置自定義權(quán)重,滿足個(gè)性化需求。
- VideoReward適合哪些應(yīng)用場(chǎng)景?它適用于視頻生成質(zhì)量的優(yōu)化、個(gè)性化視頻生成、模型訓(xùn)練與微調(diào),以及視頻內(nèi)容創(chuàng)作與編輯等多個(gè)領(lǐng)域。

粵公網(wǎng)安備 44011502001135號(hào)