FlexiAct

FlexiAct – 清華聯合騰訊推出的動作遷移模型

FlexiAct

什么是FlexiAct

FlexiAct是由清華大學與騰訊ARC實驗室聯合研發的一款先進動作遷移模型。它能夠在給定目標圖像的條件下，將參考視頻中的動作精準地遷移到目標主體身上。即使在空間結構差異顯著或跨域異構場景中，FlexiAct依然能夠實現動作的高度適配與外觀的一致性。通過引入輕量化的RefAdapter模塊和創新的頻率感知動作提取（FAE）機制，該模型突破了傳統方法在布局、視角及骨架結構差異方面的限制，確保目標身份特征得以保留。FlexiAct在人物與動物動作遷移任務中均表現卓越，具備廣泛的應用潛力。

FlexiAct的核心功能

跨主體動作遷移：支持將動作從一個人物遷移到另一個人物，甚至實現從人類到動物的動作轉移，靈活多樣。
外觀一致性保持：在動作遷移過程中，確保目標主體的外觀特征（如服飾、發型等）與原始目標圖像高度吻合，避免視覺失真。
空間結構靈活適配：面對參考視頻與目標圖像在布局、視角及骨架結構上的差異，依然能夠實現自然流暢的動作轉換。

FlexiAct的技術亮點

RefAdapter（空間結構適配模塊）：這一輕量級適配器專門用于彌合參考視頻幀與目標圖像之間的空間結構差異。訓練過程中，隨機選取視頻幀作為條件輸入，增強模型對多樣姿態、布局及視角的適應能力，同時保證外觀的一致性。通過注入少量可訓練參數（例如LoRA模塊），在CogVideoX-I2V模型的MMDiT層中實現靈活空間調整，避免傳統技術中的嚴格約束。
頻率感知動作提取（FAE）：FAE是一種創新的動作提取方法，直接在去噪過程階段完成動作信息的提取，無需依賴的時空網絡結構。該模塊基于觀察到模型在不同去噪時間步對信息（低頻）和外觀細節（高頻）的關注差異，動態調整注意力權重，優先在早期時間步提取動作特征，在后期時間步則聚焦細節還原，實現了動作提取與控制的精準平衡。

產品官網與資源

官方網站：https://shiyi-zh0408.github.io/projectpages/FlexiAct/
GitHub代碼庫：https://github.com/shiyi-zh0408/FlexiAct
HuggingFace模型庫：https://huggingface.co/shiyi0408/FlexiAct
技術論文：https://arxiv.org/pdf/2505.03730

FlexiAct的應用領域

影視制作：幫助創作者快速生成逼真角色動作，顯著降低拍攝成本，提高制作效率。
游戲開發：為游戲角色賦予豐富多樣的動作表現，增強沉浸式游戲體驗。
廣告營銷：支持虛擬代言人動作生成，提升廣告的吸引力與表現力。
教育培訓：用于制作教學示范與康復訓練動作，助力學習與身體恢復。
娛樂互動：激發用戶創作趣味性視頻內容，提升互動娛樂的趣味性和參與度。

常見問題解答

問：FlexiAct支持哪些類型的動作遷移？
答：FlexiAct不僅支持人物之間的動作遷移，還能實現人物與動物之間的跨主體動作轉移，適用范圍廣泛。
問：模型如何保證動作遷移后的外觀一致性？
答：通過設計輕量級的RefAdapter模塊和頻率感知動作提取機制，模型在保持動作準確的同時，確保目標主體的服裝、發型等外觀特征不被破壞。
問：FlexiAct能否適應不同視角和骨架結構的差異？
答：是的，模型特別針對布局、視角及骨架結構的差異進行了優化，能夠實現自然且流暢的動作遷移。
問：是否有開源代碼和預訓練模型可供使用？
答：FlexiAct提供了公開的GitHub代碼庫和HuggingFace模型庫，方便研究者和開發者進行進一步探索和應用。

閱讀原文