梵高大跳科目三，只需文字+火柴人動效！可控視頻生成框架來了 | AAAI 2024

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：梵高大跳科目三，只需文字+火柴人動效！可控視頻生成框架來了 | AAAI 2024
關(guān)鍵字：姿勢,騰訊,視頻,時間,圖像
文章來源：量子位
內(nèi)容字數(shù)：3639字

內(nèi)容摘要：

馬躍投稿量子位 | 公眾號 QbitAI視頻生成還可以這么玩？
來一個“火柴人”做做動作示范，再加文本描述，即可讓各種形象惟妙惟肖地跟著動起來。
比如男人在公園椅子上做遠眺姿勢：
鋼鐵俠街邊起舞：
蝙蝠俠也不閑著，水上打拳：
形象數(shù)量可以隨意添加：
風格也能任意切換（上：新海誠，下：梵高）：
如此看下來，讓任意一個八桿子打不著的形象跳個科目三，也是簡簡單單了。
如上成果便是不久前入選了AAAI 2024的姿態(tài)全可控視頻生成框架：Follow-Your-Pose。
出自清華大學、香港科技大學、騰訊AI Lab以及中科院。
相關(guān)代碼已在GitHub攬獲800顆標星。
有網(wǎng)友驚嘆，有了它：
TikTok/抖音的舞蹈將永遠花樣百出。
那么以下，為作者投稿內(nèi)容，一起來看看它具體是如何做到的吧。
姿勢可控的角生成來了現(xiàn)如今，生成文本可編輯和姿勢可控的角在創(chuàng)建各種數(shù)字人方面具有迫切的需求。
然而，由于缺乏一個全面的、具有成對的視頻-姿態(tài)-文本的生成數(shù)據(jù)集，從而使這項任務受到了限制。
在這項工作中，研究團隊設(shè)計了一種新穎的兩階段訓練方案，該方案可以利用易于獲得的數(shù)據(jù)集（即圖像姿勢對和無姿

原文鏈接：梵高大跳科目三，只需文字+火柴人動效！可控視頻生成框架來了 | AAAI 2024