微軟聯(lián)手Xbox!首個游戲視頻模型登Nature,AI成游戲視頻剪輯大師
Muse目前生成游戲視頻的分辨率僅為300×180像素。
原標(biāo)題:微軟聯(lián)手Xbox!首個游戲視頻模型登Nature,AI成游戲視頻剪輯大師
文章來源:智東西
內(nèi)容字數(shù):6688字
微軟Muse:基于AI的游戲視頻生成模型
近日,微軟發(fā)布了首個世界和人類行動模型(WHAM)Muse,并在國際頂級學(xué)術(shù)期刊《Nature》上發(fā)表相關(guān)論文。Muse是一個能夠生成游戲視頻的AI模型,其參數(shù)量高達16億,基于近7年的Xbox游戲數(shù)據(jù)進行訓(xùn)練,能夠理解游戲物理和3D環(huán)境,生成玩家動作和視覺效果。
1. Muse模型的核心能力與數(shù)據(jù)
Muse模型的核心能力在于生成一致性、多樣性和持久性的游戲視頻。它能生成長達兩分鐘與真實游戲效果相近的視頻,并提供不同的攝像機角度、角色和游戲工具。此外,開發(fā)者可以添加新元素,Muse會自動將其合理融入畫面。
Muse的訓(xùn)練數(shù)據(jù)來自Xbox游戲《Bleeding Edge》的7張地圖,包含約50萬個匿名游戲會話數(shù)據(jù),總計27.89 TiB,相當(dāng)于7年多的人類游戲時間。為了保護用戶隱私,所有個人身份信息(Xbox用戶ID)均已刪除。
2. 模型訓(xùn)練與評估
Muse的訓(xùn)練過程使用了VQGAN圖像編碼器,將圖像編碼為Tokens序列。研究人員通過調(diào)整Tokens數(shù)量來平衡圖像質(zhì)量、生成速度和上下文長度。模型采用自回歸采樣生成新的序列,并允許修改Tokens以調(diào)整圖像或控制器動作。
模型評估方面,研究人員使用了Fréchet視頻距離(FVD)衡量一致性,Wasserstein距離衡量動作與真實玩家動作的接近程度。結(jié)果表明,Muse生成的視頻在一致性、多樣性和持久性方面都接近人類真實水平。
3. 多學(xué)科協(xié)作與技術(shù)細節(jié)
Muse的開發(fā)由微軟研究員、Xbox Games Studios和Ninja Theory合作完成。研究人員首先進行了用戶研究,確定了生成模型需要具備的一致性、多樣性、持久性等關(guān)鍵能力,以此指導(dǎo)模型的設(shè)計和訓(xùn)練。
訓(xùn)練初期,研究人員使用V100集群進行訓(xùn)練,并最終擴展到100個GPU,并最終遷移到H100進行大規(guī)模訓(xùn)練。 通過不斷改進,Muse能夠處理更高分辨率的圖像,并支持所有7張《Bleeding Edge》地圖。
4. 開源與未來展望
目前,微軟已開源Muse的權(quán)重和樣本數(shù)據(jù),并提供了一個可視化的交互界面WHAM Demonstrator,方便開發(fā)者進行體驗和研究。Muse的出現(xiàn)展現(xiàn)了生成式AI在游戲領(lǐng)域的巨大潛力,未來有望重塑游戲體驗,并催生更多基于AI的新穎游戲。
盡管目前Muse生成的視頻分辨率僅為300×180像素,但這項研究仍具有里程碑式的意義,為未來更高質(zhì)量、更逼真的AI游戲視頻生成奠定了基礎(chǔ)。
聯(lián)系作者
文章來源:智東西
作者微信:
作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。