大一統(tǒng)視頻編輯框架:浙大&微軟推出UniEdit,無須訓(xùn)練、支持多種編輯場(chǎng)景
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大一統(tǒng)視頻編輯框架:浙大&微軟推出UniEdit,無須訓(xùn)練、支持多種編輯場(chǎng)景
關(guān)鍵字:研究者,編輯,視頻,動(dòng)作,分支
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8077字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部隨著 Sora 的爆火,人們看到了 AI 視頻生成的巨大潛力,對(duì)這一領(lǐng)域的關(guān)注度也越來越高。
除了視頻生成,在現(xiàn)實(shí)生活中,如何對(duì)視頻進(jìn)行編輯同樣是一個(gè)重要的問題,且應(yīng)用場(chǎng)景更為廣泛。以往的視頻編輯方法往往局限于「外觀」層面的編輯,例如對(duì)視頻進(jìn)行「風(fēng)格遷移」或者替換視頻中的物體,但關(guān)于更改視頻中對(duì)象的「動(dòng)作」的嘗試還很少。UniEdit 視頻編輯結(jié)果(動(dòng)作編輯、風(fēng)格遷移、背景替換、剛性 / 非剛性物體替換)
本文中,來自浙江大學(xué)、微軟亞洲研究院、和北京大學(xué)的研究者提出了一個(gè)基于文本描述的視頻編輯統(tǒng)一框架 UniEdit,不僅涵蓋了風(fēng)格遷移、背景替換、剛性 / 非剛性物體替換等傳統(tǒng)外觀編輯場(chǎng)景,更可以有效地編輯視頻中對(duì)象的動(dòng)作,例如將以上視頻中浣熊彈吉他的動(dòng)作變成「吃蘋果」或是「招手」。
此外,除了靈活的自然語言接口和統(tǒng)一的編輯框架,這一模型的另一大優(yōu)勢(shì)是無需訓(xùn)練,大大提升了部署的便捷性和用戶使用的方便度。論文標(biāo)題:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance E
原文鏈接:大一統(tǒng)視頻編輯框架:浙大&微軟推出UniEdit,無須訓(xùn)練、支持多種編輯場(chǎng)景
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)