生成越長越跑偏?浙大商湯新作StarGen讓場景視頻生成告別「短片魔咒」
場景視頻生成又卷出新SOTA
原標(biāo)題:生成越長越跑偏?浙大商湯新作StarGen讓場景視頻生成告別「短片魔咒」
文章來源:機器之心
內(nèi)容字?jǐn)?shù):5763字
浙江大學(xué)&商湯科技提出StarGen:解決長距離場景生成時空一致性難題
本文介紹了浙江大學(xué)章國鋒教授和商湯科技研究團隊聯(lián)合發(fā)表的論文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。該論文針對復(fù)雜場景的長距離場景生成中時空一致性問題,提出了一種新穎的解決方案——StarGen。
1. StarGen的核心創(chuàng)新
StarGen的核心創(chuàng)新在于引入空間與時間雙重條件機制,將稀疏視圖的3D幾何信息與視頻擴散模型有機結(jié)合,有效緩解了長距離生成中誤差累積的問題。這使得StarGen能夠?qū)崿F(xiàn)多視一致的長視頻生成,并支持稀疏視圖插值、圖生視頻以及布局驅(qū)動場景生成等多種任務(wù)。
2. 現(xiàn)有方法的局限性
現(xiàn)有的新視角生成方法主要分為重建模型、生成模型和混合方法三類。重建模型依賴密集視角輸入;生成模型如GAN在全局一致性方面表現(xiàn)不足,而擴散模型則受限于計算資源,難以生成高質(zhì)量的長視頻。混合方法雖然結(jié)合了重建和生成,但仍然存在誤差累積等問題。
3. StarGen的系統(tǒng)框架
StarGen框架包含時空自回歸框架、時空條件視頻生成和下游任務(wù)實現(xiàn)三個部分。時空自回歸框架采用滑動窗口的方式逐步生成長視頻,利用時間條件圖像和空間相鄰圖像保證時空一致性。時空條件視頻生成則結(jié)合了大型重建模型(LRM)和視頻擴散模型(VDM),通過ControlNet實現(xiàn)對生成內(nèi)容的精確控制。
4. 損失函數(shù)設(shè)計
StarGen設(shè)計了深度損失、潛在損失和擴散損失三種損失函數(shù),分別用于優(yōu)化重建深度圖精度、特征空間一致性和生成序列質(zhì)量。
5. 實驗結(jié)果與分析
實驗結(jié)果表明,StarGen在稀疏視圖插值、圖生視頻和基于布局的城市生成等任務(wù)上均顯著優(yōu)于現(xiàn)有方法。在稀疏視圖插值任務(wù)中,StarGen在PSNR指標(biāo)上表現(xiàn)突出;在圖生視頻任務(wù)中,StarGen生成的視頻在視覺保真度和姿態(tài)精度上保持更佳的一致性;在基于布局的城市生成任務(wù)中,StarGen生成的場景布局一致性和細(xì)節(jié)保真度更高。消融實驗也驗證了空間和時間條件機制的有效性。
6. 總結(jié)
StarGen通過巧妙地結(jié)合空間和時間條件機制以及視頻擴散模型,有效解決了長距離場景生成中的時空一致性難題,為高質(zhì)量、可控的長視頻生成提供了一種新的解決方案。其在多種下游任務(wù)上的優(yōu)異表現(xiàn)也證明了該方法的有效性和廣泛適用性。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺