浙江大學和商湯科技的聯合研究團隊,提出了一個空間生成大模型框架以及實現路徑。
原標題:淺談空間智能與空間生成
文章來源:智東西
內容字數:6760字
空間智能:人工智能邁向3D時代的關鍵
本文探討了空間智能的起源、發展現狀以及未來展望,重點介紹了一種基于2D數據和強化學習協同機制的空間生成大模型框架及其實現路徑。
空間智能的概念和發展
空間智能的概念最早由霍華德·加德納于1983年提出,指感知、改造和再創造視覺經驗的能力。2018年,Andrew J. Davison教授提出“空間人工智能”的概念,將其視為視覺SLAM技術的延伸。2024年,李飛飛教授將空間智能定義為AI發展的下一個里程碑,強調AI不僅要“看見”世界,更要理解和互動。World Labs和DeepMind相繼發布了基于單張圖像生成3D場景的技術,標志著AI進入3D時代。
空間生成:空間智能的關鍵
文章指出,空間生成是空間智能的關鍵組成部分。與文本和視頻生成不同,高質量3D數據的獲取面臨巨大挑戰:高成本的傳感器設備和復雜算法、專業知識需求的標注過程以及對多樣性和覆蓋率的高要求。
基于2D數據與強化學習的協同空間生成框架
浙江大學和商湯科技的聯合研究團隊提出了一種基于2D數據和強化學習的協同機制,構建自優化的3D數據生成新范式,該框架分為三個階段:
1) **第一階段:3D重建大模型**: 從海量影像數據中提取場景的三維結構化表征,生成多視角一致的高質量影像數據,用于訓練和優化2D生成模型。
2) **第二階段:強化學習優化**: 利用優化后的2D生成模型生成大規模高質量數據,并通過三維重建技術將其轉換為3D場景數據,再通過強化學習機制持續優化3D空間生成大模型的性能。
3) **第三階段:直接2D到3D生成**: 空間生成大模型能夠直接從2D圖像輸入生成完整、連貫且具有空間合理性和視覺真實性的3D場景。
StarGen項目:框架的第一階段實現
StarGen項目作為該框架的第一階段成果,將3D重建模型和視頻生成模型有機結合,實現了視頻生成質量和控制精度的突破。通過滑動窗口機制和時空約束,有效克服了點云重建誤差累積問題,生成的視頻可進一步轉換為可交互的3D場景。
總結與展望
空間智能的研究即將迎來新的爆發點,將為游戲、影視、AR/VR、具身智能等領域帶來顛覆性變革。本文提出的框架和實現路徑,有望推動空間生成技術以及空間智能其他模塊的發展。
聯系作者
文章來源:智東西
作者微信:
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。