原標題:超越人類!DeepMind強化學習新突破:AI在「我的世界」中封神!
文章來源:新智元
內容字數:10940字
DeepMind AI超越人類專家:在《我的世界》類游戲中取得突破
DeepMind團隊近期取得重大突破,其改進的強化學習技術使AI在類似《我的世界》的2D游戲Craftax-classic中超越了人類專家水平。這項研究的核心在于改進基于Transformer世界模型(TWM)的強化學習方法,并顯著提升了AI的學習效率,僅需少量數據即可達到超越SOTA的性能。
1. 挑戰與方法:Crafter環境與基于模型的強化學習
為了訓練更全面的AI,DeepMind選擇Crafter環境作為訓練平臺。Crafter是一個2D版的《我的世界》,其隨機生成的關卡、局部視野以及基于成就的獎勵機制,對AI的學習能力提出了更高的要求。研究團隊采用基于模型的強化學習(MBRL)方法,讓AI先構建一個“世界模型”(WM),在模擬世界中進行規劃,從而減少對環境交互數據的依賴。與傳統的無模型強化學習(MFRL)相比,MBRL顯著降低了數據需求。
2. 關鍵改進:三項核心技術提升性能
研究團隊主要從三個方面對TWM進行改進:首先,采用Dyna方法,混合使用真實環境數據和TWM生成的虛擬數據訓練智能體,這是一種生成式數據增強的方法;其次,提出了一種新的圖像標記化方法——最近鄰標記器(NNT),它比傳統的VQ-VAE方法更有效率,并提高了TWM的穩定性;最后,采用塊狀教師(BTF)方法改進TWM的訓練方式,提高了訓練速度和模型準確性。這三項改進共同促使AI在Craftax-classic中取得了67.42%的獎勵和27.91%的得分,顯著超越了之前的SOTA,甚至超過了人類專家的平均水平。
3. 實驗結果與分析:MBRL階梯與消融實驗
研究團隊通過“MBRL階梯”清晰地展示了每項改進帶來的性能提升,從基準模型到最終的最佳模型,獎勵逐步提升。消融實驗進一步驗證了每項改進措施的重要性,證明了其有效性。此外,定量和定性評估都顯示,改進后的TWM能夠更好地捕捉游戲動態,減少不合理的預測,提升了世界模型的質量。
4. 未來展望:技術推廣與進一步研究
DeepMind團隊計劃將這些技術推廣到更廣泛的環境中,并進一步研究使用優先經驗回放加速訓練,以及結合大型預訓練模型提升性能。他們還計劃探索非重構型世界模型,以進一步提高AI的學習效率和泛化能力。
總而言之,DeepMind的這項研究為強化學習領域帶來了新的突破,展示了基于模型的強化學習在復雜環境中解決問題的巨大潛力,并為通往通用人工智能(AGI)的道路提供了新的啟示。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。