超越人類！DeepMind強(qiáng)化學(xué)習(xí)新突破：AI在「我的世界」中封神！

原標(biāo)題：超越人類！DeepMind強(qiáng)化學(xué)習(xí)新突破：AI在「我的世界」中封神！
文章來源：新智元
內(nèi)容字?jǐn)?shù)：10940字

DeepMind AI超越人類專家：在《我的世界》類游戲中取得突破

DeepMind團(tuán)隊(duì)近期取得重大突破，其改進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)使AI在類似《我的世界》的2D游戲Craftax-classic中超越了人類專家水平。這項(xiàng)研究的核心在于改進(jìn)基于Transformer世界模型（TWM）的強(qiáng)化學(xué)習(xí)方法，并顯著提升了AI的學(xué)習(xí)效率，僅需少量數(shù)據(jù)即可達(dá)到超越SOTA的性能。

1. 挑戰(zhàn)與方法：Crafter環(huán)境與基于模型的強(qiáng)化學(xué)習(xí)

為了訓(xùn)練更全面的AI，DeepMind選擇Crafter環(huán)境作為訓(xùn)練平臺(tái)。Crafter是一個(gè)2D版的《我的世界》，其隨機(jī)生成的關(guān)卡、局部視野以及基于成就的獎(jiǎng)勵(lì)機(jī)制，對(duì)AI的學(xué)習(xí)能力提出了更高的要求。研究團(tuán)隊(duì)采用基于模型的強(qiáng)化學(xué)習(xí)（MBRL）方法，讓AI先構(gòu)建一個(gè)“世界模型”（WM），在模擬世界中進(jìn)行規(guī)劃，從而減少對(duì)環(huán)境交互數(shù)據(jù)的依賴。與傳統(tǒng)的無模型強(qiáng)化學(xué)習(xí)（MFRL）相比，MBRL顯著降低了數(shù)據(jù)需求。

2. 關(guān)鍵改進(jìn)：三項(xiàng)核心技術(shù)提升性能

研究團(tuán)隊(duì)主要從三個(gè)方面對(duì)TWM進(jìn)行改進(jìn)：首先，采用Dyna方法，混合使用真實(shí)環(huán)境數(shù)據(jù)和TWM生成的虛擬數(shù)據(jù)訓(xùn)練智能體，這是一種生成式數(shù)據(jù)增強(qiáng)的方法；其次，提出了一種新的圖像標(biāo)記化方法——最近鄰標(biāo)記器（NNT），它比傳統(tǒng)的VQ-VAE方法更有效率，并提高了TWM的穩(wěn)定性；最后，采用塊狀教師（BTF）方法改進(jìn)TWM的訓(xùn)練方式，提高了訓(xùn)練速度和模型準(zhǔn)確性。這三項(xiàng)改進(jìn)共同促使AI在Craftax-classic中取得了67.42%的獎(jiǎng)勵(lì)和27.91%的得分，顯著超越了之前的SOTA，甚至超過了人類專家的平均水平。

3. 實(shí)驗(yàn)結(jié)果與分析：MBRL階梯與消融實(shí)驗(yàn)

研究團(tuán)隊(duì)通過“MBRL階梯”清晰地展示了每項(xiàng)改進(jìn)帶來的性能提升，從基準(zhǔn)模型到最終的最佳模型，獎(jiǎng)勵(lì)逐步提升。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了每項(xiàng)改進(jìn)措施的重要性，證明了其有效性。此外，定量和定性評(píng)估都顯示，改進(jìn)后的TWM能夠更好地捕捉游戲動(dòng)態(tài)，減少不合理的預(yù)測(cè)，提升了世界模型的質(zhì)量。

4. 未來展望：技術(shù)推廣與進(jìn)一步研究

DeepMind團(tuán)隊(duì)計(jì)劃將這些技術(shù)推廣到更廣泛的環(huán)境中，并進(jìn)一步研究使用優(yōu)先經(jīng)驗(yàn)回放加速訓(xùn)練，以及結(jié)合大型預(yù)訓(xùn)練模型提升性能。他們還計(jì)劃探索非重構(gòu)型世界模型，以進(jìn)一步提高AI的學(xué)習(xí)效率和泛化能力。

總而言之，DeepMind的這項(xiàng)研究為強(qiáng)化學(xué)習(xí)領(lǐng)域帶來了新的突破，展示了基于模型的強(qiáng)化學(xué)習(xí)在復(fù)雜環(huán)境中解決問題的巨大潛力，并為通往通用人工智能（AGI）的道路提供了新的啟示。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文

# AIGC動(dòng)態(tài)# AI多智能體協(xié)作 # DeepMind強(qiáng)化學(xué)習(xí)突破 # 強(qiáng)化學(xué)習(xí)游戲AI # 我的世界AI智能體 # 虛擬世界AI訓(xùn)練

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

超越人類！DeepMind強(qiáng)化學(xué)習(xí)新突破：AI在「我的世界」中封神！

DeepMind AI超越人類專家：在《我的世界》類游戲中取得突破

1. 挑戰(zhàn)與方法：Crafter環(huán)境與基于模型的強(qiáng)化學(xué)習(xí)

2. 關(guān)鍵改進(jìn)：三項(xiàng)核心技術(shù)提升性能

3. 實(shí)驗(yàn)結(jié)果與分析：MBRL階梯與消融實(shí)驗(yàn)

4. 未來展望：技術(shù)推廣與進(jìn)一步研究

聯(lián)系作者

當(dāng)AI遇上心理學(xué)：如何讓AI的眼神更像人？｜AAAI 2025

特斯拉 FSD 終于入華，但它連紅燈都沒認(rèn)全

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？