国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

DreamVideo-2

AI工具1年前 (2024)發(fā)布 AI工具集

1,132 0 0

DreamVideo-2是一款突破性的零樣本視頻定制框架，由復旦大學與阿里巴巴集團等機構聯(lián)合開發(fā)。該框架能夠根據單一圖像和一系列界定框，生成帶有特定主題和精準軌跡的視頻，且在測試過程中無需進行微調。DreamVideo-2采用參考注意力機制學習主題的外觀，并通過從界定框導出的二值掩碼來控制軌跡，實現高精度的管理。

DreamVideo-2是什么

DreamVideo-2是一種創(chuàng)新的零樣本視頻定制框架，由復旦大學與阿里巴巴集團等機構共同推出。它能夠根據用戶提供的單一圖像和界定框序列生成特定主題和軌跡的視頻，無需在測試時進行任何微調。該框架利用參考注意力機制來學習主題的外觀，并基于從界定框生成的二值掩碼來控制軌跡，從而實現精準的管理。DreamVideo-2引入混合掩碼參考注意力和重加權擴散損失，這增強了主題表征，并平衡了主題學習與控制之間的關系。研究團隊利用WebVid-10M數據集和內部數據來支持零樣本視頻定制任務，結果顯示DreamVideo-2在主題定制和控制方面超越了現有的先進方法，展現了其在視頻定制領域的巨大潛力和實用性。

DreamVideo-2

DreamVideo-2的主要功能

零樣本定制：無需在測試時進行微調，能夠直接根據用戶提供的單一圖像和界定框序列生成具有特定主題和精確軌跡的視頻。
主題學習：基于參考注意力機制，利用模型的固有能力學習和生成特定主題的外觀。
精確控制：通過從界定框導出的二值掩碼控制視頻中主題的軌跡，實現精確的控制。
混合掩碼參考注意力：基于混合潛在掩碼建模方案，增強目標位置的主題表征，從而提升主題的準確性。
重加權擴散損失：通過區(qū)分界定框內外區(qū)域的貢獻，確保主題學習和控制之間的平衡。

DreamVideo-2的技術原理

參考注意力機制：
- 基于視頻擴散模型的多尺度特征提取能力，將用戶提供的單一主題圖像作為單幀視頻輸入模型，獲取主題注意力特征。
- 通過殘差交叉注意力將主題特征融入視頻特征中，從而增強模型對特定主題的學習能力。
掩碼引導的模塊：
- 將用戶定義的界定框序列轉換為二值掩碼序列，以指示視頻中主題的軌跡。
- 設計包含時空編碼器和空間ControlNet的掩碼引導模塊，從掩碼序列中提取信息，實現精確控制。
混合掩碼參考注意力：在參考注意力中引入混合潛在掩碼建模，通過調整掩碼中背景的權重，增強目標位置的主題表征。
重加權擴散損失：設計新的損失函數，通過調整界定框內外區(qū)域的損失貢獻權重，確保主題學習與控制之間的平衡。
訓練與推理：
- 在訓練階段，凍結原始3D UNet參數，聯(lián)合訓練新添加的組件，如混合掩碼參考注意力和掩碼引導的模塊。
- 在推理階段，用戶提供主題圖像和界定框序列，能夠生成定制視頻，無需額外的微調或注意力圖修改。
數據集構建：構建新的單主題視頻數據集，包含視頻掩碼和邊界框，通過Grounding DINO、SAM和DEVA模型生成注釋，支持零樣本視頻定制任務。