Bolt3D – 牛津大合谷歌推出的 3D 場景生成技術(shù)
Bolt3D 是一項(xiàng)由谷歌研究院、牛津大學(xué)的 VGG 團(tuán)隊(duì)以及谷歌 DeepMind 聯(lián)合開發(fā)的創(chuàng)新型 3D 場景生成技術(shù)。這項(xiàng)潛在擴(kuò)散模型可以在單個 GPU 上,短短不到七秒的時間內(nèi),從一張或多張圖像中生成 3D 場景表示。在英偉達(dá) H100 圖形處理單元上,Bolt3D 僅需 6.25 秒便能將照片轉(zhuǎn)化為完整的三維場景。
Bolt3D是什么
Bolt3D 是一種先進(jìn)的 3D 場景生成技術(shù),由谷歌研究院、牛津大學(xué) VGG 團(tuán)隊(duì)和谷歌 DeepMind 的專家團(tuán)隊(duì)共同開發(fā)。它是一種潛在擴(kuò)散模型,能夠在單個 GPU 上,快速地從一張或多張輸入圖像中生成 3D 場景表示,處理速度極快,使用英偉達(dá) H100 圖形處理單元時,僅需 6.25 秒即可完成整個過程。
Bolt3D的主要功能
- 迅速生成三維場景:Bolt3D 采用前饋生成方法,能夠直接從一張或多張輸入圖像中采樣出 3D 場景表示,生成速度非常快,在單個 GPU 上僅需 6.25 秒即可完成。
- 支持多視角輸入與優(yōu)異的泛化能力:該技術(shù)支持不同數(shù)量的輸入圖像,從單視圖到多視圖均可有效處理,能夠生成未被觀測區(qū)域的內(nèi)容,展現(xiàn)出良好的泛化能力。
- 高保真度的3D場景表示:基于高斯濺射技術(shù),Bolt3D 通過在二維網(wǎng)格中布置三維高斯函數(shù)來存儲數(shù)據(jù),每個函數(shù)記錄了位置、顏色、透明度和空間信息,生成的三維場景質(zhì)量極高。
- 實(shí)時交互與廣泛應(yīng)用:用戶能夠在瀏覽器中實(shí)時查看和渲染生成的 3D 場景,具備廣闊的應(yīng)用前景,涵蓋游戲開發(fā)、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、建筑設(shè)計、影視制作等多個領(lǐng)域。
Bolt3D的技術(shù)原理
- 幾何多視角潛在擴(kuò)散模型:該模型經(jīng)過訓(xùn)練,用于聯(lián)合建模圖像和 3D 點(diǎn)圖,能夠處理一張或多張圖像及其相機(jī)位姿,學(xué)習(xí)捕捉目標(biāo)圖像、目標(biāo)點(diǎn)圖和源視圖點(diǎn)圖的聯(lián)合分布。
- 幾何變分自編碼器(VAE):Bolt3D 使用幾何 VAE,將一個視圖的點(diǎn)圖和相機(jī)射線圖聯(lián)合編碼為幾何潛在特征,模型通過最小化標(biāo)準(zhǔn) VAE 目標(biāo)和特定幾何損失的組合進(jìn)行優(yōu)化,以高精度壓縮點(diǎn)圖。
- 高斯頭部模型:給定相機(jī)及生成的圖像和點(diǎn)圖,Bolt3D 訓(xùn)練多視角前饋高斯頭部模型,輸出存儲在散點(diǎn)圖像中的 3D 高斯的細(xì)化顏色、不透明度和協(xié)方差矩陣。
- 大規(guī)模多視角一致數(shù)據(jù)集:為訓(xùn)練 Bolt3D,構(gòu)建了一個大規(guī)模的多視角一致的 3D 幾何及外觀數(shù)據(jù)集,通過對現(xiàn)有的多視圖圖像數(shù)據(jù)集應(yīng)用先進(jìn)的密集重建技術(shù)生成。
- 三階段訓(xùn)練過程:Bolt3D 采用三階段訓(xùn)練流程,首先訓(xùn)練幾何變分自編碼器,然后訓(xùn)練高斯頭部模型,最后訓(xùn)練潛在擴(kuò)散模型。
Bolt3D的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://szymanowiczs.github.io/bolt3d
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.14445
Bolt3D的應(yīng)用場景
- 游戲開發(fā):能夠快速生成游戲中的 3D 場景,顯著縮短開發(fā)時間和降低成本。
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí):為 VR 和 AR 應(yīng)用提供實(shí)時的 3D 場景生成,提升用戶的沉浸體驗(yàn)。
- 建筑設(shè)計:迅速生成建筑的 3D 模型,有助于設(shè)計和展示。
- 影視制作:在電影和電視劇的特效制作中,快速生成復(fù)雜的 3D 場景,提升制作效率。
常見問題
- Bolt3D支持哪些輸入圖像類型?:Bolt3D 支持從單視圖到多視圖的各種輸入圖像。
- 生成的 3D 場景可以實(shí)時交互嗎?:是的,用戶可以在瀏覽器中實(shí)時查看和交互生成的 3D 場景。
- Bolt3D的處理速度有多快?:在英偉達(dá) H100 圖形處理單元上,Bolt3D 僅需約 6.25 秒即可完成 3D 場景的生成。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...