DreamVideo-2是一款突破性的零樣本視頻定制框架,由復旦大學與阿里巴巴集團等機構聯合開發。該框架能夠根據單一圖像和一系列界定框,生成帶有特定主題和精準軌跡的視頻,且在測試過程中無需進行微調。DreamVideo-2采用參考注意力機制學習主題的外觀,并通過從界定框導出的二值掩碼來控制軌跡,實現高精度的管理。
DreamVideo-2是什么
DreamVideo-2是一種創新的零樣本視頻定制框架,由復旦大學與阿里巴巴集團等機構共同推出。它能夠根據用戶提供的單一圖像和界定框序列生成特定主題和軌跡的視頻,無需在測試時進行任何微調。該框架利用參考注意力機制來學習主題的外觀,并基于從界定框生成的二值掩碼來控制軌跡,從而實現精準的管理。DreamVideo-2引入混合掩碼參考注意力和重加權擴散損失,這增強了主題表征,并平衡了主題學習與控制之間的關系。研究團隊利用WebVid-10M數據集和內部數據來支持零樣本視頻定制任務,結果顯示DreamVideo-2在主題定制和控制方面超越了現有的先進方法,展現了其在視頻定制領域的巨大潛力和實用性。
DreamVideo-2的主要功能
- 零樣本定制:無需在測試時進行微調,能夠直接根據用戶提供的單一圖像和界定框序列生成具有特定主題和精確軌跡的視頻。
- 主題學習:基于參考注意力機制,利用模型的固有能力學習和生成特定主題的外觀。
- 精確控制:通過從界定框導出的二值掩碼控制視頻中主題的軌跡,實現精確的控制。
- 混合掩碼參考注意力:基于混合潛在掩碼建模方案,增強目標位置的主題表征,從而提升主題的準確性。
- 重加權擴散損失:通過區分界定框內外區域的貢獻,確保主題學習和控制之間的平衡。
DreamVideo-2的技術原理
- 參考注意力機制:
- 基于視頻擴散模型的多尺度特征提取能力,將用戶提供的單一主題圖像作為單幀視頻輸入模型,獲取主題注意力特征。
- 通過殘差交叉注意力將主題特征融入視頻特征中,從而增強模型對特定主題的學習能力。
- 掩碼引導的模塊:
- 將用戶定義的界定框序列轉換為二值掩碼序列,以指示視頻中主題的軌跡。
- 設計包含時空編碼器和空間ControlNet的掩碼引導模塊,從掩碼序列中提取信息,實現精確控制。
- 混合掩碼參考注意力:在參考注意力中引入混合潛在掩碼建模,通過調整掩碼中背景的權重,增強目標位置的主題表征。
- 重加權擴散損失:設計新的損失函數,通過調整界定框內外區域的損失貢獻權重,確保主題學習與控制之間的平衡。
- 訓練與推理:
- 在訓練階段,凍結原始3D UNet參數,聯合訓練新添加的組件,如混合掩碼參考注意力和掩碼引導的模塊。
- 在推理階段,用戶提供主題圖像和界定框序列,能夠生成定制視頻,無需額外的微調或注意力圖修改。
- 數據集構建:構建新的單主題視頻數據集,包含視頻掩碼和邊界框,通過Grounding DINO、SAM和DEVA模型生成注釋,支持零樣本視頻定制任務。
DreamVideo-2的項目地址
- 項目官網:dreamvideo2.github.io
- arXiv技術論文:https://arxiv.org/pdf/2410.13830
DreamVideo-2的應用場景
- 娛樂與社交媒體:用戶可以根據個人喜好,快速生成包含特定人物或物體的視頻內容,適用于社交媒體分享或個人娛樂。
- 電影與視頻制作:電影制作人可以利用DreamVideo-2預覽特效或場景,或生成特定的動作序列,從而降低實際拍攝的成本和時間。
- 廣告與營銷:企業可以基于定制的視頻內容,創建更具吸引力的廣告,以特定產品或品牌為主題,提高廣告的個性化和互動性。
- 教育與培訓:教育機構可以使用DreamVideo-2生成教學視頻,模擬特定實驗過程或歷史,增強學習體驗。
- 新聞與報道:新聞機構能夠快速生成新聞故事的視覺內容,尤其適合于那些難以現場拍攝的。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...