淺談空間智能與空間生成
浙江大學(xué)和商湯科技的聯(lián)合研究團隊,提出了一個空間生成大模型框架以及實現(xiàn)路徑。
原標題:淺談空間智能與空間生成
文章來源:智東西
內(nèi)容字數(shù):6760字
空間智能:人工智能邁向3D時代的關(guān)鍵
本文探討了空間智能的起源、發(fā)展現(xiàn)狀以及未來展望,重點介紹了一種基于2D數(shù)據(jù)和強化學(xué)習(xí)協(xié)同機制的空間生成大模型框架及其實現(xiàn)路徑。
空間智能的概念和發(fā)展
空間智能的概念最早由霍華德·加德納于1983年提出,指感知、改造和再創(chuàng)造視覺經(jīng)驗的能力。2018年,Andrew J. Davison教授提出“空間人工智能”的概念,將其視為視覺SLAM技術(shù)的延伸。2024年,李飛飛教授將空間智能定義為AI發(fā)展的下一個里程碑,強調(diào)AI不僅要“看見”世界,更要理解和互動。World Labs和DeepMind相繼發(fā)布了基于單張圖像生成3D場景的技術(shù),標志著AI進入3D時代。
空間生成:空間智能的關(guān)鍵
文章指出,空間生成是空間智能的關(guān)鍵組成部分。與文本和視頻生成不同,高質(zhì)量3D數(shù)據(jù)的獲取面臨巨大挑戰(zhàn):高成本的傳感器設(shè)備和復(fù)雜算法、專業(yè)知識需求的標注過程以及對多樣性和覆蓋率的高要求。
基于2D數(shù)據(jù)與強化學(xué)習(xí)的協(xié)同空間生成框架
浙江大學(xué)和商湯科技的聯(lián)合研究團隊提出了一種基于2D數(shù)據(jù)和強化學(xué)習(xí)的協(xié)同機制,構(gòu)建自優(yōu)化的3D數(shù)據(jù)生成新范式,該框架分為三個階段:
1) **第一階段:3D重建大模型**: 從海量影像數(shù)據(jù)中提取場景的三維結(jié)構(gòu)化表征,生成多視角一致的高質(zhì)量影像數(shù)據(jù),用于訓(xùn)練和優(yōu)化2D生成模型。
2) **第二階段:強化學(xué)習(xí)優(yōu)化**: 利用優(yōu)化后的2D生成模型生成大規(guī)模高質(zhì)量數(shù)據(jù),并通過三維重建技術(shù)將其轉(zhuǎn)換為3D場景數(shù)據(jù),再通過強化學(xué)習(xí)機制持續(xù)優(yōu)化3D空間生成大模型的性能。
3) **第三階段:直接2D到3D生成**: 空間生成大模型能夠直接從2D圖像輸入生成完整、連貫且具有空間合理性和視覺真實性的3D場景。
StarGen項目:框架的第一階段實現(xiàn)
StarGen項目作為該框架的第一階段成果,將3D重建模型和視頻生成模型有機結(jié)合,實現(xiàn)了視頻生成質(zhì)量和控制精度的突破。通過滑動窗口機制和時空約束,有效克服了點云重建誤差累積問題,生成的視頻可進一步轉(zhuǎn)換為可交互的3D場景。
總結(jié)與展望
空間智能的研究即將迎來新的爆發(fā)點,將為游戲、影視、AR/VR、具身智能等領(lǐng)域帶來顛覆性變革。本文提出的框架和實現(xiàn)路徑,有望推動空間生成技術(shù)以及空間智能其他模塊的發(fā)展。
聯(lián)系作者
文章來源:智東西
作者微信:
作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。