Transformer解碼真實(shí)場(chǎng)景!Meta推出70M參數(shù)SceneScript模型

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Transformer解碼真實(shí)場(chǎng)景!Meta推出70M參數(shù)SceneScript模型
關(guān)鍵字:場(chǎng)景,編碼器,解碼器,語(yǔ)言,表示
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):5105字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】近日,來(lái)自Meta的研究人員將Transformer用于解碼真實(shí)世界的場(chǎng)景,并轉(zhuǎn)化為幾何表示,效果超越了傳統(tǒng)的點(diǎn)云、網(wǎng)格或輻射場(chǎng),只需70M參數(shù),就能完成虛擬疊加現(xiàn)實(shí)的炫酷效果。拋棄傳統(tǒng)方法,只采用Transformer來(lái)解碼真實(shí)場(chǎng)景!
近日,來(lái)自Meta的研究人員推出了SceneScript,只需要70M參數(shù),僅采用編碼器解碼器架構(gòu),就能將真實(shí)世界的場(chǎng)景轉(zhuǎn)化為幾何表示。
論文地址:https://arxiv.org/pdf/2403.13064.pdf
SceneScript是一種用于表示和推斷場(chǎng)景幾何圖形的方法,使用自回歸結(jié)構(gòu)化語(yǔ)言模型和端到端學(xué)習(xí)。
SceneScript可以助力AR和AI設(shè)備理解物理空間的幾何形狀,比如下面這個(gè)演示,利用Aria眼鏡拍攝的素材,SceneScript可以獲取視覺(jué)輸入并估計(jì)場(chǎng)景元素(墻壁、門(mén)窗等)。
是不是感覺(jué)一下子走到了虛擬和現(xiàn)實(shí)的交界?
用這個(gè)技術(shù)來(lái)幫助開(kāi)發(fā)AR或者M(jìn)R游戲應(yīng)該是妥妥的,小編表示期待地搓搓手。
再看下面這個(gè),將SceneScript技術(shù)疊加到Meta Quest的顯示畫(huà)面上,現(xiàn)實(shí)世界瞬間
原文鏈接:Transformer解碼真實(shí)場(chǎng)景!Meta推出70M參數(shù)SceneScript模型
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)