LeviTor – 南大聯(lián)合螞蟻等機(jī)構(gòu)開源的3D目標(biāo)軌跡控制視頻合成技術(shù)
LeviTor是什么
LeviTor是由學(xué)、螞蟻集團(tuán)和浙江大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā)的一項(xiàng)前沿圖像到視頻合成技術(shù)。該技術(shù)通過結(jié)合深度信息和K-means聚類算法,能夠控制視頻中3D物體的軌跡,而無需進(jìn)行顯式的3D軌跡跟蹤。通過高質(zhì)量的視頻對(duì)象分割數(shù)據(jù)集進(jìn)行訓(xùn)練,LeviTor能夠有效捕捉復(fù)雜場(chǎng)景中物體的和交互。其用戶友好的推理流程簡(jiǎn)化了3D軌跡的輸入,極大地提升了視頻生成技術(shù)的先進(jìn)性和易用性。LeviTor的推出為3D物體軌跡的控制開辟了新的可能性,擴(kuò)大了創(chuàng)意應(yīng)用的范圍,適合更廣泛的用戶群體。

LeviTor的主要功能
- 精準(zhǔn)控制物體:在從靜態(tài)圖像生成動(dòng)態(tài)視頻時(shí),能夠精確操控物體的軌跡。
- 激發(fā)創(chuàng)意應(yīng)用:基于3D軌跡的控制,拓展了視頻合成的創(chuàng)意應(yīng)用潛力。
- 簡(jiǎn)化用戶輸入流程:用戶可以通過簡(jiǎn)單的2D圖像繪制和深度調(diào)整輕松輸入3D軌跡,降低了技術(shù)門檻。
- 自動(dòng)提取深度信息和物體掩碼:系統(tǒng)能夠自動(dòng)從圖像中提取深度信息和物體掩碼,減少用戶操作的復(fù)雜性。
- 交互式軌跡繪制:用戶可交互式地繪制物體軌跡,系統(tǒng)將這些輸入轉(zhuǎn)換為3D路徑。
LeviTor的技術(shù)原理
- K-means聚類:對(duì)視頻對(duì)象掩碼的像素進(jìn)行K-means聚類,提取出一組代表性的控制點(diǎn)。
- 深度信息融合:通過深度估計(jì)網(wǎng)絡(luò)DepthAnythingV2預(yù)測(cè)相對(duì)深度圖,并在每個(gè)控制點(diǎn)采樣深度,增強(qiáng)控制點(diǎn)的深度信息。
- 控制信號(hào)構(gòu)建:結(jié)合2D坐標(biāo)與估計(jì)的深度值,構(gòu)建控制軌跡,這些軌跡作為視頻擴(kuò)散模型的控制信號(hào)。
- 視頻擴(kuò)散模型:將控制信號(hào)輸入視頻擴(kuò)散模型中,生成與3D軌跡對(duì)齊的視頻內(nèi)容。
- 用戶友好的推理流程:設(shè)計(jì)了用戶友好的交互系統(tǒng),用戶可通過簡(jiǎn)單的點(diǎn)擊和深度值調(diào)整輸入3D軌跡。
LeviTor的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):ppetrichor.github.io/levitor
- GitHub倉(cāng)庫(kù):https://github.com/qiuyu96/LeviTor
- HuggingFace模型庫(kù):https://huggingface.co/hlwang06/LeviTor
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.15214
LeviTor的應(yīng)用場(chǎng)景
- 電影特效制作:生成真實(shí)感十足的特效場(chǎng)景,降低實(shí)地拍攝的成本,提高制作效率。
- 游戲動(dòng)畫生成:在游戲開發(fā)中創(chuàng)造動(dòng)態(tài)的背景和角色動(dòng)畫,增強(qiáng)玩家的沉浸感。
- 虛擬現(xiàn)實(shí)體驗(yàn):在VR應(yīng)用中合成真實(shí)的虛擬環(huán)境,為用戶提供更為真實(shí)的沉浸式體驗(yàn)。
- 增強(qiáng)現(xiàn)實(shí)展示:在AR領(lǐng)域?qū)⑻摂M信息與現(xiàn)實(shí)世界無縫結(jié)合,適用于教育、導(dǎo)航等多個(gè)場(chǎng)景。
- 廣告視頻制作:制作引人注目的動(dòng)態(tài)廣告視頻,吸引觀眾注意力,提升品牌形象與產(chǎn)品吸引力。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)