擴(kuò)散模型版CS: GO！世界模型+強(qiáng)化學(xué)習(xí)：2小時(shí)訓(xùn)練登頂Atari 100K

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：擴(kuò)散模型版CS: GO！世界模型+強(qiáng)化學(xué)習(xí)：2小時(shí)訓(xùn)練登頂Atari 100K
關(guān)鍵字：模型,智能,世界,環(huán)境,得分
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：LRS
【新智元導(dǎo)讀】DIAMOND是一種新型的強(qiáng)化學(xué)習(xí)智能體，在一個(gè)由擴(kuò)散模型構(gòu)建的虛擬世界中進(jìn)行訓(xùn)練，能夠以更高效率學(xué)習(xí)和掌握各種任務(wù)。在Atari 100k基準(zhǔn)測試中，DIAMOND的平均得分超越了人類玩家，證明了其在模擬復(fù)雜環(huán)境中處理細(xì)節(jié)和進(jìn)行決策的能力。環(huán)境生成模型（generative models of environments），也可以叫世界模型（world model），在「通用智能體規(guī)劃」和「推理環(huán)境」中的關(guān)鍵組成部分，相比傳統(tǒng)強(qiáng)化學(xué)習(xí)采樣效率更高。
但世界模型主要操作一系列離散潛在變量（discrete latent variables）以模擬環(huán)境動態(tài)，但這種壓縮緊湊的離散表征有可能會忽略那些在強(qiáng)化學(xué)習(xí)中很重要的視覺細(xì)節(jié)。
日內(nèi)瓦大學(xué)、愛丁堡大學(xué)的研究人員提出了一個(gè)在擴(kuò)散世界模型中訓(xùn)練的強(qiáng)化學(xué)習(xí)智能體DIAMOND（DIffusion As a Model Of eNvironment Dreams），文中分析了使擴(kuò)散模型適應(yīng)于世界建模（world modeling）所需的設(shè)計(jì)要素，并展示了如何通過改善視覺細(xì)節(jié)來提高智能體的性能。論文鏈接：htt

原文鏈接：擴(kuò)散模型版CS: GO！世界模型+強(qiáng)化學(xué)習(xí)：2小時(shí)訓(xùn)練登頂Atari 100K