MotionBridge 第一次進行了統一多模態可控插幀視頻模型的嘗試。
Adobe MotionBridge:統一多模態可控視頻生成模型
本文介紹了Adobe Research提出的一個名為MotionBridge的統一多模態可控視頻生成模型,該模型能夠根據多種模態的控制信號生成或編輯視頻,顯著提升了視頻生成的靈活性和可控性。
1. 模型概述及優勢
MotionBridge是一個基于插幀的模型,能夠處理1到n張關鍵幀,生成流暢的視頻。與傳統的圖生視頻方法相比,它具有更高的可控性和生成質量。它解決了傳統插幀方法在處理大動作和細節控制方面的不足,能夠生成更復雜、更符合用戶意圖的視頻。
2. 多模態控制能力
MotionBridge支持多種模態的控制,包括:
- 軌跡(sparse trajectory): 通過簡單的軌跡筆畫控制物體。
- 掩碼(Mask): 指定物體移動或靜止區域,精確控制鏡頭視角和物體范圍。
- 引導像素(guiding pixels): 精確控制特定像素區域在指定幀的位置,實現精準的像素級控制。
- 關鍵幀(keyframes): 提供關鍵幀,模型生成中間幀實現場景平滑切換。
- 文本: 支持文本交互。
這些多模態控制能力使得MotionBridge能夠生成各種類型的視頻,包括動畫、卡通視頻等,并能對現有視頻進行編輯和改進。
3. 技術要點
MotionBridge的幾個關鍵技術點包括:
- 分類編碼控制信號: 將控制信號分為內容控制和控制兩類,分別處理,減少歧義。
- 軌跡表征: 從光流合成軌跡,并將其轉換為稀疏RGB點,提高控制精度。
- 空間內容控制表征: 引入掩碼和引導像素等空間內容控制,提升創作靈活度。
- 課程學習(curriculum learning)策略: 先訓練簡單的控制,再逐步過渡到復雜的控制,提高模型學習效率。
4. 實驗結果
實驗結果表明,MotionBridge在生成質量和可控性方面均優于現有SOTA算法。消融實驗驗證了分類編碼融合和課程學習策略的有效性,以及掩碼在提高模型理解和用戶交互效率方面的作用。
5. 結論
MotionBridge是一個具有突破性的統一多模態可控視頻生成模型,它為視頻創作和編輯提供了強大的工具,并為未來的視頻生成研究提供了新的方向。 其強大的控制能力和生成質量,使其在動畫制作、視頻合成等領域具有廣闊的應用前景。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...