SketchVideo – 快手聯合多所高校推出基于草圖的視頻生成與編輯框架
SketchVideo是一款由中國科學院大學、香港科技大學及快手可靈團隊共同開發的草圖基礎視頻生成與編輯框架。它允許用戶在關鍵幀上繪制草圖,并結合文本提示,從而實現對視頻空間布局和的精細掌控。
SketchVideo是什么
SketchVideo是一個基于草圖的創新型視頻生成與編輯工具,旨在提升視頻創作的靈活性與效率。用戶可以在關鍵幀上進行草圖描繪,并通過文本提示進行指導,從而實現對視頻內容的精準調整。該框架依托于DiT視頻生成模型,設計了高效的草圖控制網絡,涵蓋草圖控制塊和幀間注意力機制,可以將稀疏的關鍵幀草圖條件有效傳播到整個視頻幀中。SketchVideo支持對真實視頻或合成視頻進行細粒度的編輯,并利用視頻插入模塊與潛在融合技術,確保新內容與原始視頻在空間和時間上保持一致,保留未編輯區域的細節。
SketchVideo的主要功能
- 視頻生成:通過草圖與文本提示生成全新視頻。
- 視頻編輯:在關鍵幀上繪制草圖,便于簡化視頻內容的修改。
- 動態控制:支持插值和外推,增強視頻表現力。
- 細節保留:在編輯過程中保留未修改區域的細膩細節。
- 高效生成:優化內存使用,快速生成高質量視頻。
SketchVideo的技術原理
- 草圖條件網絡:基于DiT(Diffusion-based Transformer)模型,特別設計的草圖條件網絡通過多個草圖控制塊預測跳過的DiT塊殘差特征,在多個層次的特征中注入控制信號。
- 幀間注意力機制:利用幀間注意力機制,將關鍵幀上的草圖條件有效傳播到所有視頻幀,計算各幀的隱藏特征與控制幀特征之間的關系,實現時空特征的傳播。
- 視頻插入模塊:在視頻編輯任務中,設計了視頻插入模塊,以分析輸入草圖與原始視頻的關系,生成與原始視頻在空間和時間上保持一致的新內容,確保編輯后的視頻無縫銜接。
- 潛在融合技術:在推理過程中,基于DDIM(Denoising Diffusion Implicit Models)反演生成輸入視頻的噪聲潛在碼,替換未編輯區域的潛在碼,保持原始視頻的細節,確保編輯后的視頻視覺上自然且連貫。
- 混合訓練策略:采用混合訓練策略,結合圖像與視頻數據進行訓練,第一階段使用圖像和視頻數據加速收斂,以解決視頻數據不足的問題;第二階段則專注于使用視頻數據,進一步優化時間連貫性。
SketchVideo的項目地址
- 項目官網:http://geometrylearning.com/SketchVideo
- GitHub倉庫:https://github.com/IGLICT/SketchVideo
- arXiv技術論文:https://arxiv.org/pdf/2503.23284
SketchVideo的應用場景
- 影視與廣告:快速生成創意視頻和特效預覽,優化制作流程,節省時間與成本。
- 教育與培訓:輔助制作教學視頻和培訓材料,提升教學效果。
- 游戲開發:快速生成關卡預覽和角色動畫,提高開發效率。
- 個人創作:輕松制作個性化短視頻,降低創作門檻。
- 建筑設計:生成建筑與室內設計的動態預覽,增強客戶溝通。
常見問題
- SketchVideo支持哪些視頻格式?支持多種主流視頻格式,具體格式可參考官網說明。
- 使用SketchVideo需要什么樣的硬件配置?建議使用具備較高運算能力的計算機,以保證流暢運行。
- 如何獲取SketchVideo的技術支持?用戶可以通過項目官網或GitHub倉庫提交問題,團隊會盡快回復。
- SketchVideo是否開源?是的,SketchVideo的源代碼已在GitHub上公開,歡迎用戶參與貢獻。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...