擴散模型版CS: GO!世界模型+強化學習:2小時訓練登頂Atari 100K
AIGC動態(tài)歡迎閱讀
原標題:擴散模型版CS: GO!世界模型+強化學習:2小時訓練登頂Atari 100K
關(guān)鍵字:模型,智能,世界,環(huán)境,得分
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導讀】DIAMOND是一種新型的強化學習智能體,在一個由擴散模型構(gòu)建的虛擬世界中進行訓練,能夠以更高效率學習和掌握各種任務(wù)。在Atari 100k基準測試中,DIAMOND的平均得分超越了人類玩家,證明了其在模擬復雜環(huán)境中處理細節(jié)和進行決策的能力。環(huán)境生成模型(generative models of environments),也可以叫世界模型(world model),在「通用智能體規(guī)劃」和「推理環(huán)境」中的關(guān)鍵組成部分,相比傳統(tǒng)強化學習采樣效率更高。
但世界模型主要操作一系列離散潛在變量(discrete latent variables)以模擬環(huán)境動態(tài),但這種壓縮緊湊的離散表征有可能會忽略那些在強化學習中很重要的視覺細節(jié)。
日內(nèi)瓦大學、愛丁堡大學的研究人員提出了一個在擴散世界模型中訓練的強化學習智能體DIAMOND(DIffusion As a Model Of eNvironment Dreams),文中分析了使擴散模型適應(yīng)于世界建模(world modeling)所需的設(shè)計要素,并展示了如何通過改善視覺細節(jié)來提高智能體的性能。論文鏈接:htt
原文鏈接:擴散模型版CS: GO!世界模型+強化學習:2小時訓練登頂Atari 100K
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...