支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate
AIGC動態(tài)歡迎閱讀
原標題:支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate
關(guān)鍵字:視頻,時序,方法,模型,噪聲
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com人類跳舞視頻生成是一項引人注目且具有挑戰(zhàn)性的可控視頻合成任務(wù),旨在根據(jù)輸入的參考圖像和目標姿勢序列生成高質(zhì)量逼真的連續(xù)視頻。隨著視頻生成技術(shù)的快速發(fā)展,特別是生成模型的迭代演化,跳舞視頻生成任務(wù)取得了前所未有的進展,并展示了廣泛的應(yīng)用潛力。
現(xiàn)有的方法可以大致分為兩組。第一組通常基于生成對抗網(wǎng)絡(luò)(GAN),其利用中間的姿勢引導(dǎo)表示來扭曲參考外觀,并通過之前扭曲的目標生成合理的視頻幀。然而,基于生成對抗網(wǎng)絡(luò)的方法通常存在訓(xùn)練不穩(wěn)定和泛化能力差的問題,導(dǎo)致明顯的偽影和幀間抖動。
第二組則使用擴散模型(Diffusion model)來合成逼真的視頻。這些方法兼具穩(wěn)定訓(xùn)練和強大遷移能力的優(yōu)勢,相較于基于 GAN 的方法表現(xiàn)更好,典型方法如 Disco、MagicAn
原文鏈接:支持合成一分鐘高清視頻,華科等提出人類跳舞視頻生成新框架UniAnimate
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺