DragAnything

DragAnything – 快手聯(lián)合浙大等機構(gòu)開源的可控視頻生成方法

DragAnything是什么

DragAnything 是由快手與浙江大學和新加坡國立大學 Show Lab 聯(lián)合開發(fā)的一種基于實體表示的視頻生成技術。該方法通過簡單的軌跡輸入，實現(xiàn)了對視頻中任意物體的精確控制。DragAnything 利用擴散模型的潛在特征表示每個視頻實體，克服了傳統(tǒng)方法僅依賴拖動像素點而無法精確控制物體的局限性。該系統(tǒng)為用戶提供了友好的交互界面，靈活支持前景、背景及相機的控制，并在 FID、FVD 等評估指標上創(chuàng)造了新的最佳表現(xiàn)。

DragAnything

DragAnything的主要功能

實體級控制：支持對視頻中任意實體（包括前景和背景）的精準控制，超越了單純的像素級操作。
多實體控制：能夠同時對多個物體執(zhí)行的控制，每個物體的依據(jù)用戶定義的軌跡進行調(diào)整。
友好的用戶交互：用戶可通過簡單的選擇和拖動操作來實現(xiàn)復雜的控制，無需使用如分割掩碼或深度圖等復雜輸入信號。
相機控制：除了物體控制，DragAnything 還能實現(xiàn)相機的縮放和平移等控制。
高質(zhì)量視頻生成：在保持控制準確性的同時，生成高品質(zhì)的視頻內(nèi)容，適用于多種應用場景。

DragAnything的技術原理

實體表示：采用新的實體表示方法，從擴散模型的潛在特征中提取語義信息，以表征視頻中的每個物體，結(jié)合物體的語義特征與軌跡，實現(xiàn)精準的實體級控制。
2D 高斯表示：引入 2D 高斯表示，通過高斯分布為物體的中心區(qū)域賦予更高權(quán)重，降低邊緣像素的干擾，從而實現(xiàn)更自然的控制。
擴散模型：基于擴散模型架構(gòu)（如 Stable Video Diffusion），利用其強大的生成和去噪能力生成高質(zhì)量的視頻內(nèi)容。擴散模型通過逐步去除噪聲來重建視頻幀，并結(jié)合用戶輸入的軌跡和實體表示。
軌跡引導的控制：用戶通過繪制簡單的軌跡定義物體的路徑，DragAnything 將軌跡與實體表示相結(jié)合，生成符合用戶意圖的視頻內(nèi)容，避免了直接操作像素點的局限性，實現(xiàn)更自然和精準的控制。
損失函數(shù)與優(yōu)化：在訓練過程中，采用帶有掩碼的均方誤差（MSE）損失函數(shù)，專注于優(yōu)化用戶指定區(qū)域的控制，同時保持其他區(qū)域的生成質(zhì)量。

DragAnything的項目地址

項目官網(wǎng)：https://weijiawu.github.io/draganything
GitHub倉庫：https://github.com/showlab/DragAnything
arXiv技術論文：https://arxiv.org/pdf/2403.07420

DragAnything的應用場景

視頻創(chuàng)作與編輯：快速生成動畫，調(diào)整物體軌跡，從而提高創(chuàng)作效率。
游戲開發(fā)：生成角色動作，增強玩家的互動體驗。
教育與培訓：輔助科學模擬和技能培訓，幫助理解復雜的過程。
廣告與營銷：制作動態(tài)廣告和產(chǎn)品展示，突出產(chǎn)品特色。
娛樂與社交：生成互動視頻和控制虛擬角色動作，增強趣味性。

常見問題

DragAnything適用于哪些平臺？ DragAnything 可以在多種操作系統(tǒng)上運行，具體取決于用戶的需求與開發(fā)環(huán)境。
使用DragAnything需要哪些技能？ 用戶只需具備基本的計算機操作能力，即可輕松使用 DragAnything，無需專業(yè)的編程技能。
DragAnything的輸出視頻質(zhì)量如何？ DragAnything 能夠生成高質(zhì)量的視頻，適合多種應用場景，并保持控制的精確性。

閱讀原文