WorldMem – 南洋理工聯合北大和上海 AI Lab 推出的世界生成模型
WorldMem是一款由南洋理工大學、北京大學與上海AI實驗室聯合開發的創新型人工智能世界生成模型。該模型通過引入記憶機制,有效解決了傳統世界生成模型在長時序生成中一致性不足的關鍵問題。在WorldMem中,智能體能夠在多樣化的場景中自如探索,生成的虛擬世界在視角和位置變化后依然保持幾何一致性。
WorldMem是什么
WorldMem是一款由南洋理工大學、北京大學和上海AI實驗室聯合推出的前沿AI世界生成模型。通過引入記憶機制,WorldMem解決了傳統世界生成模型在長時間序列生成中常見的一致性缺失問題。該模型允許智能體在多種虛擬場景中探索,并確保在不同視角和位置下生成的世界依然保持幾何一致性。此外,WorldMem還支持時間一致性的建模,模擬動態變化(例如物體對環境的影響),并在Minecraft數據集上進行了大規模訓練,以驗證其在真實場景中的有效性。WorldMem為構建真實、持久且互動的虛擬世界提供了新的技術路徑。
WorldMem的主要功能
- 保持一致性:在長時間的生成過程中,確保虛擬世界的一致性。
- 模擬動態變化:能夠模擬隨著時間推移而產生的變化,例如物體對環境的影響(如燈光融化積雪)。
- 支持交互:用戶在虛擬世界中放置物體或進行其他操作,交互行為會被記錄并影響后續生成。
- 多樣化場景生成:支持在多種虛擬環境(如平原、沙漠、冰原等)中進行探索。
- 適用于真實場景:在真實世界數據集上驗證生成一致性的能力。
WorldMem的技術原理
- 條件生成模塊:基于條件擴散變換器(Conditional Diffusion Transformer),結合Diffusion Forcing訓練策略,支持自回歸式的長時生成。通過外部動作信號(如移動、視角控制、物體放置等)引導生成第一人稱視角。
- 記憶讀寫模塊:記憶庫存儲生成過程中的關鍵歷史信息,每個記憶單元包含圖像幀及其對應狀態(如視角位姿和時間戳)。記憶檢索使用貪心匹配算法,根據視野重疊和時間差異計算相似度,高效篩選出與當前場景最相關的記憶單元。
- 記憶融合模塊:將當前幀與記憶幀的狀態嵌入(位姿 + 時間)結合,利用注意力機制提取與當前場景最相關的記憶信息,生成融合特征以引導當前幀的生成。使用Plücker坐標表示位姿,基于MLP映射時間戳,加入相對嵌入機制,提升模型的空間理解和細節保持能力。
WorldMem的項目地址
- 項目官網:https://xizaoqu.github.io/worldmem/
- GitHub倉庫:https://github.com/xizaoqu/WorldMem
- arXiv技術論文:https://arxiv.org/pdf/2504.12369
- 在線體驗Demo:https://huggingface.co/spaces/yslan/worldmem
WorldMem的應用場景
- 虛擬游戲:生成長期一致的虛擬游戲世界,支持探索和環境交互。
- VR/AR:創建持久且動態變化的虛擬環境,提升用戶的沉浸體驗。
- 自動駕駛:模擬真實交通場景,用于自動駕駛系統的測試。
- 建筑設計:生成虛擬建筑環境,輔助設計方案進行評估。
- 教育:創造互動教學環境,支持學生進行實驗和探索。
常見問題
在使用WorldMem時,用戶可能會遇到一些常見問題,例如如何開始使用、如何進行交互、以及如何在不同場景中保持一致性等。項目團隊提供了詳細的文檔和支持,幫助用戶解決這些問題并充分利用WorldMem的功能。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...