支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate
關(guān)鍵字:視頻,時(shí)序,方法,模型,噪聲
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com人類跳舞視頻生成是一項(xiàng)引人注目且具有挑戰(zhàn)性的可控視頻合成任務(wù),旨在根據(jù)輸入的參考圖像和目標(biāo)姿勢(shì)序列生成高質(zhì)量逼真的連續(xù)視頻。隨著視頻生成技術(shù)的快速發(fā)展,特別是生成模型的迭代演化,跳舞視頻生成任務(wù)取得了前所未有的進(jìn)展,并展示了廣泛的應(yīng)用潛力。
現(xiàn)有的方法可以大致分為兩組。第一組通常基于生成對(duì)抗網(wǎng)絡(luò)(GAN),其利用中間的姿勢(shì)引導(dǎo)表示來(lái)扭曲參考外觀,并通過(guò)之前扭曲的目標(biāo)生成合理的視頻幀。然而,基于生成對(duì)抗網(wǎng)絡(luò)的方法通常存在訓(xùn)練不穩(wěn)定和泛化能力差的問(wèn)題,導(dǎo)致明顯的偽影和幀間抖動(dòng)。
第二組則使用擴(kuò)散模型(Diffusion model)來(lái)合成逼真的視頻。這些方法兼具穩(wěn)定訓(xùn)練和強(qiáng)大遷移能力的優(yōu)勢(shì),相較于基于 GAN 的方法表現(xiàn)更好,典型方法如 Disco、MagicAn
原文鏈接:支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)