LeviTor – 南大聯(lián)合螞蟻等機構開源的3D目標軌跡控制視頻合成技術
LeviTor是什么
LeviTor是由學、螞蟻集團和浙江大學等機構聯(lián)合開發(fā)的一項前沿圖像到視頻合成技術。該技術通過結合深度信息和K-means聚類算法,能夠控制視頻中3D物體的軌跡,而無需進行顯式的3D軌跡跟蹤。通過高質(zhì)量的視頻對象分割數(shù)據(jù)集進行訓練,LeviTor能夠有效捕捉復雜場景中物體的和交互。其用戶友好的推理流程簡化了3D軌跡的輸入,極大地提升了視頻生成技術的先進性和易用性。LeviTor的推出為3D物體軌跡的控制開辟了新的可能性,擴大了創(chuàng)意應用的范圍,適合更廣泛的用戶群體。
LeviTor的主要功能
- 精準控制物體:在從靜態(tài)圖像生成動態(tài)視頻時,能夠精確操控物體的軌跡。
- 激發(fā)創(chuàng)意應用:基于3D軌跡的控制,拓展了視頻合成的創(chuàng)意應用潛力。
- 簡化用戶輸入流程:用戶可以通過簡單的2D圖像繪制和深度調(diào)整輕松輸入3D軌跡,降低了技術門檻。
- 自動提取深度信息和物體掩碼:系統(tǒng)能夠自動從圖像中提取深度信息和物體掩碼,減少用戶操作的復雜性。
- 交互式軌跡繪制:用戶可交互式地繪制物體軌跡,系統(tǒng)將這些輸入轉換為3D路徑。
LeviTor的技術原理
- K-means聚類:對視頻對象掩碼的像素進行K-means聚類,提取出一組代表性的控制點。
- 深度信息融合:通過深度估計網(wǎng)絡DepthAnythingV2預測相對深度圖,并在每個控制點采樣深度,增強控制點的深度信息。
- 控制信號構建:結合2D坐標與估計的深度值,構建控制軌跡,這些軌跡作為視頻擴散模型的控制信號。
- 視頻擴散模型:將控制信號輸入視頻擴散模型中,生成與3D軌跡對齊的視頻內(nèi)容。
- 用戶友好的推理流程:設計了用戶友好的交互系統(tǒng),用戶可通過簡單的點擊和深度值調(diào)整輸入3D軌跡。
LeviTor的項目地址
- 項目官網(wǎng):ppetrichor.github.io/levitor
- GitHub倉庫:https://github.com/qiuyu96/LeviTor
- HuggingFace模型庫:https://huggingface.co/hlwang06/LeviTor
- arXiv技術論文:https://arxiv.org/pdf/2412.15214
LeviTor的應用場景
- 電影特效制作:生成真實感十足的特效場景,降低實地拍攝的成本,提高制作效率。
- 游戲動畫生成:在游戲開發(fā)中創(chuàng)造動態(tài)的背景和角色動畫,增強玩家的沉浸感。
- 虛擬現(xiàn)實體驗:在VR應用中合成真實的虛擬環(huán)境,為用戶提供更為真實的沉浸式體驗。
- 增強現(xiàn)實展示:在AR領域將虛擬信息與現(xiàn)實世界無縫結合,適用于教育、導航等多個場景。
- 廣告視頻制作:制作引人注目的動態(tài)廣告視頻,吸引觀眾注意力,提升品牌形象與產(chǎn)品吸引力。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...