TrajectoryCrafter – 騰訊和港中文推出的單目視頻運鏡技術
TrajectoryCrafter是什么
TrajectoryCrafter是騰訊PCG ARC Lab與香港中文大合推出的一種創新技術,旨在對單目視頻的相機軌跡進行重定向。這一方法允許用戶在后期制作中調整視頻的相機位置和角度,實現運鏡方式的靈活變換。TrajectoryCrafter的核心基于解耦視圖變換和內容生成,通過雙流條件視頻擴散模型,將點云渲染與源視頻結合,能夠精確控制用戶指定的相機軌跡,實現高質量的4D內容生成。此外,該系統采用雙重重投影策略,并結合動態單目視頻與靜態多視角數據進行模型訓練,顯著提升了在多樣化場景中的適應能力。TrajectoryCrafter在多視角及大規模單目視頻數據集上展現了卓越的表現,能夠生成高保真度且與原視頻一致的新型軌跡視頻,為用戶帶來全新的沉浸式視頻體驗。
TrajectoryCrafter的主要功能
- 精確軌跡控制:用戶可以指定任意相機軌跡(包括平移、旋轉和縮放),生成與之相匹配的視頻內容。
- 高保真視頻生成:所生成的視頻在視覺效果上與原視頻高度一致,具備豐富的細節與紋理。
- 4D一致性:生成的視頻在空間上與目標軌跡保持一致,同時在時間上與原視頻保持連貫,避免內容漂移或閃爍現象。
- 多樣化場景適應性:模型能夠適應各種場景,包括室內、室外及動態場景,展現良好的泛化能力。
TrajectoryCrafter的技術原理
- 雙流條件視頻擴散模型:
- 解耦視圖變換與內容生成:將相機軌跡的確定性變換與內容生成的隨機性進行分開處理。通過點云渲染實現精確的視圖變換,并利用視頻擴散模型生成高質量內容。
- 雙流條件機制:模型包含兩個條件輸入:點云渲染(用于精確控制視圖變換)和源視頻(提供細節與紋理)。使用獨特的Ref-DiT模塊(參考條件擴散變換器),通過交叉注意力機制將源視頻的細節信息注入生成過程中,從而提升生成視頻的保真度。
- 動態點云渲染:通過深度估計將單目視頻轉換為動態點云,并根據用戶指定的相機軌跡渲染新視圖。點云渲染能準確捕捉幾何關系和視圖變換,提供幾何指導。
- 混合數據集與訓練策略:采用混合數據集策略,將網絡規模的單目視頻與靜態多視角數據結合進行訓練。對于單目視頻,運用雙重重投影策略生成大規模訓練樣本。具體方法是通過深度估計將視頻轉換為點云,渲染新視圖后再重新投影回原始視角,從而模擬點云渲染效果。模型的訓練分為兩個階段,第一階段專注于視圖變換的準確性和缺失區域的合成,第二階段則利用多視角數據集訓練,以提升生成視頻與源視頻的一致性。
TrajectoryCrafter的項目地址
- 項目官網:https://trajectorycrafter.github.io/
- GitHub倉庫:https://github.com/TrajectoryCrafter/TrajectoryCrafter
- arXiv技術論文:https://arxiv.org/pdf/2503.05638
- 在線體驗Demo:https://huggingface.co/spaces/Doubiiu/TrajectoryCrafter
TrajectoryCrafter的應用場景
- 沉浸式娛樂:用于虛擬現實(VR)和增強現實(AR),讓用戶能夠切換觀看視角,增強沉浸感。
- 創意視頻制作:幫助影視和短視頻創作者添加新視角效果,提升內容的吸引力。
- 智能視頻會議:動態調整會議視角,聚焦特定區域或人員,提升交互性。
- 自動駕駛與機器人:生成多視角的駕駛或導航場景,用于算法的訓練和測試。
- 教育與培訓:創建多視角教學視頻,幫助學生更好地理解和學習。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...