Follow Your Pose是一款由清華大學(xué)、香港科技大學(xué)、騰訊AI Lab及中國科學(xué)院的研究團(tuán)隊共同開發(fā)并開源的文本到視頻生成框架。該系統(tǒng)允許用戶通過輸入文本描述和指定的人物姿勢,生成高度一致且真實感強(qiáng)的視頻。其采用了創(chuàng)新的兩階段訓(xùn)練策略,以確保生成的視頻在內(nèi)容和動作上都能與用戶的需求相匹配。
Follow Your Pose是什么
Follow Your Pose是一個基于文本與姿態(tài)生成視頻的開源框架,由清華大學(xué)、香港科技大學(xué)、騰訊AI Lab和中科院的研究人員聯(lián)合開發(fā)。用戶能夠通過簡單的文本描述及指定的人物姿勢,生成與之相符的視頻內(nèi)容。該框架運用了兩階段的訓(xùn)練方法,能夠創(chuàng)建出在文本描述和姿態(tài)序列上保持高度一致性的視頻,同時確保視頻中角色動作的自然流暢。
Follow Your Pose的官網(wǎng)入口
- 官方項目主頁:https://follow-your-pose.github.io/
- GitHub代碼庫:https://github.com/mayuelala/FollowYourPose
- Arxiv研究論文:https://arxiv.org/abs/2304.01186
- Hugging Face運行地址:https://huggingface.co/spaces/YueMafighting/FollowYourPose
- OpenXLab運行地址:https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
- Google Colab運行地址:https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb
Follow Your Pose的主要功能
- 文本到視頻生成:用戶只需輸入文本描述,框架即可根據(jù)這些信息生成對應(yīng)的視頻內(nèi)容,包括角色動作、場景背景和整體視覺風(fēng)格。
- 姿態(tài)控制:通過指定人物的姿勢序列,用戶可以精準(zhǔn)控制視頻中角色的每一個動作細(xì)節(jié)。
- 時間連貫性:生成的視頻能夠保持時間上的連貫性,確保動作和場景變化自然流暢,無突兀的跳躍或閃爍。
- 多樣化角色與背景生成:框架支持生成多種風(fēng)格和外觀的視頻,包括現(xiàn)實主義、卡通和賽博朋克等風(fēng)格。
- 多角生成:支持在同一視頻中展示多個角色,用戶可根據(jù)文本描述指定每個角色的身份與動作。
- 風(fēng)格化視頻生成:用戶可以通過添加風(fēng)格描述,生成具有特定藝術(shù)風(fēng)格的視頻。
Follow Your Pose的工作原理
Follow Your Pose的工作流程基于兩階段的訓(xùn)練過程,旨在將文本描述與姿態(tài)信息結(jié)合,生成視頻。以下為其詳細(xì)步驟:
- 第一階段:姿態(tài)控制的文本到圖像生成
- 姿態(tài)編碼器:框架首先利用零初始化的卷積編碼器來提取輸入姿態(tài)序列中的關(guān)鍵點特征。
- 特征注入:提取的姿態(tài)特征被下采樣至不同分辨率,并通過殘差連接方式注入到預(yù)訓(xùn)練的文本到圖像(T2I)模型的U-Net結(jié)構(gòu)中,以實現(xiàn)姿態(tài)控制。
- 訓(xùn)練:在這一階段,模型僅使用姿態(tài)圖像對進(jìn)行訓(xùn)練,旨在學(xué)習(xí)如何根據(jù)文本描述和姿態(tài)信息生成圖像。
- 第二階段:視頻生成
- 視頻數(shù)據(jù)集:為了學(xué)習(xí)時間連貫性,框架在這一階段使用未標(biāo)注姿態(tài)的高清視頻數(shù)據(jù)集進(jìn)行訓(xùn)練。
- 3D網(wǎng)絡(luò)結(jié)構(gòu):將預(yù)訓(xùn)練的U-Net模型擴(kuò)展為3D網(wǎng)絡(luò),以處理視頻輸入,涉及將第一層卷積擴(kuò)展為偽3D卷積,并添加時間自注意力模塊。
- 跨幀自注意力:引入跨幀自注意力模塊,以增強(qiáng)視頻幀之間的內(nèi)容一致性。
- 微調(diào):在此階段,僅與時間連貫性相關(guān)的參數(shù)進(jìn)行更新,其余參數(shù)保持不變。
- 生成過程
- 文本和姿態(tài)輸入:推理階段,用戶輸入描述角色外觀及動作的文本和姿勢序列。
- 視頻生成:模型根據(jù)輸入生成視頻,大部分預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型參數(shù)被凍結(jié),僅與時間連貫性相關(guān)的模塊參與計算。
通過這種創(chuàng)新的兩階段訓(xùn)練策略,F(xiàn)ollow Your Pose能夠從易獲取的數(shù)據(jù)集中有效學(xué)習(xí),生成高度可控且時間連貫的視頻。
應(yīng)用場景
Follow Your Pose可以廣泛應(yīng)用于游戲開發(fā)、動畫制作、教育培訓(xùn)、廣告宣傳等多個領(lǐng)域。用戶能夠根據(jù)具體需求定制視頻內(nèi)容,為創(chuàng)意工作提供強(qiáng)有力的支持。
常見問題
1. Follow Your Pose是否免費使用?
是的,F(xiàn)ollow Your Pose是開源的,用戶可以使用和修改。
2. 我需要編程知識才能使用Follow Your Pose嗎?
不需要,F(xiàn)ollow Your Pose提供了用戶友好的界面和文檔,使其易于上手。
3. 生成的視頻質(zhì)量如何?
Follow Your Pose能夠生成高質(zhì)量且時間連貫的視頻,確保視覺體驗良好。