WorldMem

WorldMem – 南洋理工聯合北大和上海 AI Lab 推出的世界生成模型

WorldMem

WorldMem是一款由南洋理工大學、北京大學與上海AI實驗室聯合開發的創新型人工智能世界生成模型。該模型通過引入記憶機制，有效解決了傳統世界生成模型在長時序生成中一致性不足的關鍵問題。在WorldMem中，智能體能夠在多樣化的場景中自如探索，生成的虛擬世界在視角和位置變化后依然保持幾何一致性。

WorldMem是什么

WorldMem是一款由南洋理工大學、北京大學和上海AI實驗室聯合推出的前沿AI世界生成模型。通過引入記憶機制，WorldMem解決了傳統世界生成模型在長時間序列生成中常見的一致性缺失問題。該模型允許智能體在多種虛擬場景中探索，并確保在不同視角和位置下生成的世界依然保持幾何一致性。此外，WorldMem還支持時間一致性的建模，模擬動態變化（例如物體對環境的影響），并在Minecraft數據集上進行了大規模訓練，以驗證其在真實場景中的有效性。WorldMem為構建真實、持久且互動的虛擬世界提供了新的技術路徑。

WorldMem的主要功能

保持一致性：在長時間的生成過程中，確保虛擬世界的一致性。
模擬動態變化：能夠模擬隨著時間推移而產生的變化，例如物體對環境的影響（如燈光融化積雪）。
支持交互：用戶在虛擬世界中放置物體或進行其他操作，交互行為會被記錄并影響后續生成。
多樣化場景生成：支持在多種虛擬環境（如平原、沙漠、冰原等）中進行探索。
適用于真實場景：在真實世界數據集上驗證生成一致性的能力。

WorldMem的技術原理

條件生成模塊：基于條件擴散變換器（Conditional Diffusion Transformer），結合Diffusion Forcing訓練策略，支持自回歸式的長時生成。通過外部動作信號（如移動、視角控制、物體放置等）引導生成第一人稱視角。
記憶讀寫模塊：記憶庫存儲生成過程中的關鍵歷史信息，每個記憶單元包含圖像幀及其對應狀態（如視角位姿和時間戳）。記憶檢索使用貪心匹配算法，根據視野重疊和時間差異計算相似度，高效篩選出與當前場景最相關的記憶單元。
記憶融合模塊：將當前幀與記憶幀的狀態嵌入（位姿 + 時間）結合，利用注意力機制提取與當前場景最相關的記憶信息，生成融合特征以引導當前幀的生成。使用Plücker坐標表示位姿，基于MLP映射時間戳，加入相對嵌入機制，提升模型的空間理解和細節保持能力。