WorldMem – 南洋理工聯(lián)合北大和上海 AI Lab 推出的世界生成模型
WorldMem是一款由南洋理工大學(xué)、北京大學(xué)與上海AI實(shí)驗(yàn)室聯(lián)合開發(fā)的創(chuàng)新型人工智能世界生成模型。該模型通過引入記憶機(jī)制,有效解決了傳統(tǒng)世界生成模型在長時(shí)序生成中一致性不足的關(guān)鍵問題。在WorldMem中,智能體能夠在多樣化的場(chǎng)景中自如探索,生成的虛擬世界在視角和位置變化后依然保持幾何一致性。
WorldMem是什么
WorldMem是一款由南洋理工大學(xué)、北京大學(xué)和上海AI實(shí)驗(yàn)室聯(lián)合推出的前沿AI世界生成模型。通過引入記憶機(jī)制,WorldMem解決了傳統(tǒng)世界生成模型在長時(shí)間序列生成中常見的一致性缺失問題。該模型允許智能體在多種虛擬場(chǎng)景中探索,并確保在不同視角和位置下生成的世界依然保持幾何一致性。此外,WorldMem還支持時(shí)間一致性的建模,模擬動(dòng)態(tài)變化(例如物體對(duì)環(huán)境的影響),并在Minecraft數(shù)據(jù)集上進(jìn)行了大規(guī)模訓(xùn)練,以驗(yàn)證其在真實(shí)場(chǎng)景中的有效性。WorldMem為構(gòu)建真實(shí)、持久且互動(dòng)的虛擬世界提供了新的技術(shù)路徑。
WorldMem的主要功能
- 保持一致性:在長時(shí)間的生成過程中,確保虛擬世界的一致性。
- 模擬動(dòng)態(tài)變化:能夠模擬隨著時(shí)間推移而產(chǎn)生的變化,例如物體對(duì)環(huán)境的影響(如燈光融化積雪)。
- 支持交互:用戶在虛擬世界中放置物體或進(jìn)行其他操作,交互行為會(huì)被記錄并影響后續(xù)生成。
- 多樣化場(chǎng)景生成:支持在多種虛擬環(huán)境(如平原、沙漠、冰原等)中進(jìn)行探索。
- 適用于真實(shí)場(chǎng)景:在真實(shí)世界數(shù)據(jù)集上驗(yàn)證生成一致性的能力。
WorldMem的技術(shù)原理
- 條件生成模塊:基于條件擴(kuò)散變換器(Conditional Diffusion Transformer),結(jié)合Diffusion Forcing訓(xùn)練策略,支持自回歸式的長時(shí)生成。通過外部動(dòng)作信號(hào)(如移動(dòng)、視角控制、物體放置等)引導(dǎo)生成第一人稱視角。
- 記憶讀寫模塊:記憶庫存儲(chǔ)生成過程中的關(guān)鍵歷史信息,每個(gè)記憶單元包含圖像幀及其對(duì)應(yīng)狀態(tài)(如視角位姿和時(shí)間戳)。記憶檢索使用貪心匹配算法,根據(jù)視野重疊和時(shí)間差異計(jì)算相似度,高效篩選出與當(dāng)前場(chǎng)景最相關(guān)的記憶單元。
- 記憶融合模塊:將當(dāng)前幀與記憶幀的狀態(tài)嵌入(位姿 + 時(shí)間)結(jié)合,利用注意力機(jī)制提取與當(dāng)前場(chǎng)景最相關(guān)的記憶信息,生成融合特征以引導(dǎo)當(dāng)前幀的生成。使用Plücker坐標(biāo)表示位姿,基于MLP映射時(shí)間戳,加入相對(duì)嵌入機(jī)制,提升模型的空間理解和細(xì)節(jié)保持能力。
WorldMem的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://xizaoqu.github.io/worldmem/
- GitHub倉庫:https://github.com/xizaoqu/WorldMem
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.12369
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/yslan/worldmem
WorldMem的應(yīng)用場(chǎng)景
- 虛擬游戲:生成長期一致的虛擬游戲世界,支持探索和環(huán)境交互。
- VR/AR:創(chuàng)建持久且動(dòng)態(tài)變化的虛擬環(huán)境,提升用戶的沉浸體驗(yàn)。
- 自動(dòng)駕駛:模擬真實(shí)交通場(chǎng)景,用于自動(dòng)駕駛系統(tǒng)的測(cè)試。
- 建筑設(shè)計(jì):生成虛擬建筑環(huán)境,輔助設(shè)計(jì)方案進(jìn)行評(píng)估。
- 教育:創(chuàng)造互動(dòng)教學(xué)環(huán)境,支持學(xué)生進(jìn)行實(shí)驗(yàn)和探索。
常見問題
在使用WorldMem時(shí),用戶可能會(huì)遇到一些常見問題,例如如何開始使用、如何進(jìn)行交互、以及如何在不同場(chǎng)景中保持一致性等。項(xiàng)目團(tuán)隊(duì)提供了詳細(xì)的文檔和支持,幫助用戶解決這些問題并充分利用WorldMem的功能。