擴(kuò)散模型版CS: GO!世界模型+強(qiáng)化學(xué)習(xí):2小時(shí)訓(xùn)練登頂Atari 100K

AIGC動態(tài)歡迎閱讀
原標(biāo)題:擴(kuò)散模型版CS: GO!世界模型+強(qiáng)化學(xué)習(xí):2小時(shí)訓(xùn)練登頂Atari 100K
關(guān)鍵字:模型,智能,世界,環(huán)境,得分
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】DIAMOND是一種新型的強(qiáng)化學(xué)習(xí)智能體,在一個(gè)由擴(kuò)散模型構(gòu)建的虛擬世界中進(jìn)行訓(xùn)練,能夠以更高效率學(xué)習(xí)和掌握各種任務(wù)。在Atari 100k基準(zhǔn)測試中,DIAMOND的平均得分超越了人類玩家,證明了其在模擬復(fù)雜環(huán)境中處理細(xì)節(jié)和進(jìn)行決策的能力。環(huán)境生成模型(generative models of environments),也可以叫世界模型(world model),在「通用智能體規(guī)劃」和「推理環(huán)境」中的關(guān)鍵組成部分,相比傳統(tǒng)強(qiáng)化學(xué)習(xí)采樣效率更高。
但世界模型主要操作一系列離散潛在變量(discrete latent variables)以模擬環(huán)境動態(tài),但這種壓縮緊湊的離散表征有可能會忽略那些在強(qiáng)化學(xué)習(xí)中很重要的視覺細(xì)節(jié)。
日內(nèi)瓦大學(xué)、愛丁堡大學(xué)的研究人員提出了一個(gè)在擴(kuò)散世界模型中訓(xùn)練的強(qiáng)化學(xué)習(xí)智能體DIAMOND(DIffusion As a Model Of eNvironment Dreams),文中分析了使擴(kuò)散模型適應(yīng)于世界建模(world modeling)所需的設(shè)計(jì)要素,并展示了如何通過改善視覺細(xì)節(jié)來提高智能體的性能。論文鏈接:htt
原文鏈接:擴(kuò)散模型版CS: GO!世界模型+強(qiáng)化學(xué)習(xí):2小時(shí)訓(xùn)練登頂Atari 100K
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號