可控的視頻生成需要實現對攝像機的精確控制。
機器之心AIxiv專欄:AC3D——顯著提升視頻生成中攝像機控制的精度和效率
機器之心AIxiv專欄長期致力于分享全球頂尖AI學術及技術成果。近期,來自多倫多大學、Vector Institute、Snap Research和西蒙·弗雷澤大學的研究團隊在該專欄發布了其最新研究成果:AC3D (Advanced 3D Camera Control),該研究顯著提升了視頻生成中攝像機控制的精度和效率。
1. AC3D的核心改進
AC3D基于視頻擴散變換器(VDiT)模型,通過以下三個方面改進視頻生成效果和效率:
低頻建模:研究發現攝像機主要集中在低頻段。AC3D優化了訓練和測試的條件調度,將攝像機注入限制在早期噪聲階段,從而減少后期干擾,提升視覺質量和保真度。
攝像機信息表示:研究者發現VDiT模型中間層隱含地進行了攝像機姿態估計。AC3D將攝像機條件注入限制在前8層,減少了對其他視覺特征的干擾,顯著降低參數數量,提升訓練速度和視覺質量。
數據集改進:AC3D引入了一個包含20,000段動態視頻的高質量靜態攝像機數據集,增強模型區分攝像機與場景的能力,從而生成更真實動態的視頻。
2. AC3D的模型架構和方法
AC3D基于預訓練的11.5B參數的VDiT模型,采用標準Transformer結構。通過分析攝像機的第一性原理,AC3D結合ControlNet模塊,形成VDiT-CC,實現了精確的攝像機控制。具體方法包括:采用Plücker相機表征,輕量化DiT-XS模塊處理攝像機編碼,并調整訓練和推理時的攝像機條件調度等。
此外,AC3D還引入了其他改進,例如一維時間編碼器、分離文本與攝像機引導、ControlNet反饋機制等,進一步提升了模型性能和攝像機控制能力。
3. 實驗結果和結論
研究者通過一系列提示詞和不同攝像機軌跡,展示了AC3D在攝像機控制上的出色表現。實驗結果表明,AC3D在三維攝像機控制視頻合成方面達到了最先進的性能,同時保持了高視覺質量和自然的場景動態。
AC3D對視頻擴散模型中的攝像機進行了系統性分析,顯著提升了控制的精度和效率。這項工作為文本生成視頻中更精準和高效的攝像機控制奠定了基礎。未來研究將專注于進一步克服數據局限性,并開發適用于訓練分布范圍外攝像機軌跡的控制機制。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺