Follow Your Pose

AI工具1年前 (2024)發布 AI工具集

Follow Your Pose是一款由清華大學、香港科技大學、騰訊AI Lab及中國科學院的研究團隊共同開發并開源的文本到視頻生成框架。該系統允許用戶通過輸入文本描述和指定的人物姿勢，生成高度一致且真實感強的視頻。其采用了創新的兩階段訓練策略，以確保生成的視頻在內容和動作上都能與用戶的需求相匹配。

Follow Your Pose是什么

Follow Your Pose是一個基于文本與姿態生成視頻的開源框架，由清華大學、香港科技大學、騰訊AI Lab和中科院的研究人員聯合開發。用戶能夠通過簡單的文本描述及指定的人物姿勢，生成與之相符的視頻內容。該框架運用了兩階段的訓練方法，能夠創建出在文本描述和姿態序列上保持高度一致性的視頻，同時確保視頻中角色動作的自然流暢。

Follow Your Pose

Follow Your Pose的官網入口

官方項目主頁：https://follow-your-pose.github.io/
GitHub代碼庫：https://github.com/mayuelala/FollowYourPose
Arxiv研究論文：https://arxiv.org/abs/2304.01186
Hugging Face運行地址：https://huggingface.co/spaces/YueMafighting/FollowYourPose
OpenXLab運行地址：https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
Google Colab運行地址：https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb

Follow Your Pose的主要功能

文本到視頻生成：用戶只需輸入文本描述，框架即可根據這些信息生成對應的視頻內容，包括角色動作、場景背景和整體視覺風格。
姿態控制：通過指定人物的姿勢序列，用戶可以精準控制視頻中角色的每一個動作細節。
時間連貫性：生成的視頻能夠保持時間上的連貫性，確保動作和場景變化自然流暢，無突兀的跳躍或閃爍。
多樣化角色與背景生成：框架支持生成多種風格和外觀的視頻，包括現實主義、卡通和賽博朋克等風格。
多角生成：支持在同一視頻中展示多個角色，用戶可根據文本描述指定每個角色的身份與動作。
風格化視頻生成：用戶可以通過添加風格描述，生成具有特定藝術風格的視頻。

Follow Your Pose的工作原理

Follow Your Pose

Follow Your Pose的工作流程基于兩階段的訓練過程，旨在將文本描述與姿態信息結合，生成視頻。以下為其詳細步驟：

第一階段：姿態控制的文本到圖像生成
- 姿態編碼器：框架首先利用零初始化的卷積編碼器來提取輸入姿態序列中的關鍵點特征。
- 特征注入：提取的姿態特征被下采樣至不同分辨率，并通過殘差連接方式注入到預訓練的文本到圖像（T2I）模型的U-Net結構中，以實現姿態控制。
- 訓練：在這一階段，模型僅使用姿態圖像對進行訓練，旨在學習如何根據文本描述和姿態信息生成圖像。
第二階段：視頻生成
- 視頻數據集：為了學習時間連貫性，框架在這一階段使用未標注姿態的高清視頻數據集進行訓練。
- 3D網絡結構：將預訓練的U-Net模型擴展為3D網絡，以處理視頻輸入，涉及將第一層卷積擴展為偽3D卷積，并添加時間自注意力模塊。
- 跨幀自注意力：引入跨幀自注意力模塊，以增強視頻幀之間的內容一致性。
- 微調：在此階段，僅與時間連貫性相關的參數進行更新，其余參數保持不變。
生成過程
- 文本和姿態輸入：推理階段，用戶輸入描述角色外觀及動作的文本和姿勢序列。
- 視頻生成：模型根據輸入生成視頻，大部分預訓練的穩定擴散模型參數被凍結，僅與時間連貫性相關的模塊參與計算。