ReCamMaster – 浙大聯合快手等推出的視頻重渲染框架
ReCamMaster是什么
ReCamMaster 是由浙江大學與快手科技等機構共同研發的一種視頻重渲染框架,能夠依據新的相機軌跡重新生成視頻內容。該框架結合了預訓練模型和幀維度條件機制,利用多相機同步數據集和相機姿態條件,靈活調整視頻的視角與軌跡。用戶只需上傳視頻并設定相機軌跡,系統便會生成全新視角的視頻。這項技術廣泛應用于視頻創作、后期制作、教育等多個領域,為視頻內容帶來獨特的視角和動態效果,提升創作的度與質量。
ReCamMaster的主要功能
- 相機軌跡控制的視頻重渲染:根據用戶指定的相機軌跡重渲染輸入視頻,生成新視角的動態場景,同時確保與原始視頻的外觀一致性。
- 視頻穩定化:將不穩定的視頻轉化為平滑流暢的版本,同時保留原始場景和動作。
- 視頻超分辨率與擴展:通過輸入變焦軌跡,實現局部超分辨率,生成更清晰的細節。同時支持輸入拉遠軌跡,生成超出原始視頻視野的新內容。
- 復雜軌跡支持:能夠處理平移、旋轉、縮放等多種復雜軌跡,用戶可以靈活自定義相機。
- 高質量視頻生成:通過幀維度條件拼接技術,保持視頻的動態同步性和多幀一致性,生成高質量視頻。
ReCamMaster的技術原理
- 預訓練的文本到視頻擴散模型:ReCamMaster 基于預訓練的文本到視頻擴散模型構建,模型整合了一個 3D 變分自編碼器(VAE)和一個基于 Transformer 的擴散模型(DiT),能夠生成高質量的視頻內容。
- 幀維度條件機制:框架創新性地提出了幀維度條件機制,將源視頻與目標視頻的標記沿幀維度拼接,作為擴散 Transformer 的輸入,使模型更好地理解視頻間的時空關系,從而生成與源視頻保持同步的一致目標視頻。
- 相機姿態條件:ReCamMaster 通過可學習的相機編碼器將目標相機軌跡編碼到視頻特征中,以旋轉和平移矩陣的形式表示相機軌跡,投影到與視頻標記相同的通道中,實現對相機軌跡的靈活控制。
- 多相機同步視頻數據集:為了克服訓練數據稀缺的問題,研究團隊利用 Unreal Engine 5 創建了一個大規模的多相機同步視頻數據集,包含多樣化場景與相機,有助于模型在真實世界視頻中的泛化能力。
- 訓練策略:在訓練過程中,ReCamMaster 采用了微調關鍵組件、應用噪聲及統一相機控制任務等策略,以提升模型的泛化能力及生成能力,同時減少合成數據與真實數據之間的域差距。
ReCamMaster的項目地址
- 項目官網:https://jianhongbai.github.io/ReCamMaster/
- Github倉庫:https://github.com/KwaiVGI/ReCamMaster
- arXiv技術論文:https://arxiv.org/pdf/2503.11647
ReCamMaster的應用場景
- 視頻創作與后期制作:ReCamMaster 能夠根據用戶設定的相機軌跡重新渲染視頻,生成具有新視角與軌跡的內容,創作者可以通過調整相機軌跡,增添更具創意的鏡頭,提升視覺效果。
- 視頻穩定化:將不穩定的手持視頻轉化為平穩的版本,同時保留原始場景與動作。
- 自動駕駛與機器人視覺:ReCamMaster 可用于生成不同視角的駕駛場景,幫助訓練自動駕駛模型,提高其對復雜場景的適應能力。
- 虛擬現實與增強現實:為虛擬環境生成匹配的視頻內容,豐富虛擬現實和增強現實應用的視覺素材。
常見問題
- ReCamMaster如何使用?用戶只需上傳視頻,指定所需的相機軌跡,系統將自動生成新的視頻。
- 生成的視頻質量如何?ReCamMaster 采用高質量的視頻生成技術,確保生成的視頻保持動態同步性和視覺一致性。
- 是否支持多種相機?是的,ReCamMaster 支持平移、旋轉、縮放等多種復雜相機軌跡。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...