同時提升攝像機控制效率、視頻質量，可控視頻生成架構AC3D來了

可控的視頻生成需要實現對攝像機的精確控制。

原標題：同時提升攝像機控制效率、視頻質量，可控視頻生成架構AC3D來了
文章來源：機器之心
內容字數：6217字

機器之心AIxiv專欄：AC3D——顯著提升視頻生成中攝像機控制的精度和效率

機器之心AIxiv專欄長期致力于分享全球頂尖AI學術及技術成果。近期，來自多倫多大學、Vector Institute、Snap Research和西蒙·弗雷澤大學的研究團隊在該專欄發布了其最新研究成果：AC3D (Advanced 3D Camera Control)，該研究顯著提升了視頻生成中攝像機控制的精度和效率。

1. AC3D的核心改進

AC3D基于視頻擴散變換器(VDiT)模型，通過以下三個方面改進視頻生成效果和效率：

低頻建模：研究發現攝像機主要集中在低頻段。AC3D優化了訓練和測試的條件調度，將攝像機注入限制在早期噪聲階段，從而減少后期干擾，提升視覺質量和保真度。
攝像機信息表示：研究者發現VDiT模型中間層隱含地進行了攝像機姿態估計。AC3D將攝像機條件注入限制在前8層，減少了對其他視覺特征的干擾，顯著降低參數數量，提升訓練速度和視覺質量。
數據集改進：AC3D引入了一個包含20,000段動態視頻的高質量靜態攝像機數據集，增強模型區分攝像機與場景的能力，從而生成更真實動態的視頻。

2. AC3D的模型架構和方法

AC3D基于預訓練的11.5B參數的VDiT模型，采用標準Transformer結構。通過分析攝像機的第一性原理，AC3D結合ControlNet模塊，形成VDiT-CC，實現了精確的攝像機控制。具體方法包括：采用Plücker相機表征，輕量化DiT-XS模塊處理攝像機編碼，并調整訓練和推理時的攝像機條件調度等。

此外，AC3D還引入了其他改進，例如一維時間編碼器、分離文本與攝像機引導、ControlNet反饋機制等，進一步提升了模型性能和攝像機控制能力。

3. 實驗結果和結論

研究者通過一系列提示詞和不同攝像機軌跡，展示了AC3D在攝像機控制上的出色表現。實驗結果表明，AC3D在三維攝像機控制視頻合成方面達到了最先進的性能，同時保持了高視覺質量和自然的場景動態。

AC3D對視頻擴散模型中的攝像機進行了系統性分析，顯著提升了控制的精度和效率。這項工作為文本生成視頻中更精準和高效的攝像機控制奠定了基礎。未來研究將專注于進一步克服數據局限性，并開發適用于訓練分布范圍外攝像機軌跡的控制機制。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AC3D架構 # AI視頻生成 # 可控視頻生成 # 攝像機控制效率 # 視頻質量控制

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

同時提升攝像機控制效率、視頻質量，可控視頻生成架構AC3D來了

可控的視頻生成需要實現對攝像機的精確控制。

機器之心AIxiv專欄：AC3D——顯著提升視頻生成中攝像機控制的精度和效率

1. AC3D的核心改進

2. AC3D的模型架構和方法

3. 實驗結果和結論

聯系作者

微軟華人團隊最新研究：從LLM到LAM，讓大模型真正具有「行動力」！

神經網絡中的知識提取-辛頓教授2015的論文

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點