AIGC動態歡迎閱讀
原標題:擴散模型版CS: GO!世界模型+強化學習:2小時訓練登頂Atari 100K
關鍵字:模型,智能,世界,環境,得分
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】DIAMOND是一種新型的強化學習智能體,在一個由擴散模型構建的虛擬世界中進行訓練,能夠以更高效率學習和掌握各種任務。在Atari 100k基準測試中,DIAMOND的平均得分超越了人類玩家,證明了其在模擬復雜環境中處理細節和進行決策的能力。環境生成模型(generative models of environments),也可以叫世界模型(world model),在「通用智能體規劃」和「推理環境」中的關鍵組成部分,相比傳統強化學習采樣效率更高。
但世界模型主要操作一系列離散潛在變量(discrete latent variables)以模擬環境動態,但這種壓縮緊湊的離散表征有可能會忽略那些在強化學習中很重要的視覺細節。
日內瓦大學、愛丁堡大學的研究人員提出了一個在擴散世界模型中訓練的強化學習智能體DIAMOND(DIffusion As a Model Of eNvironment Dreams),文中分析了使擴散模型適應于世界建模(world modeling)所需的設計要素,并展示了如何通過改善視覺細節來提高智能體的性能。論文鏈接:htt
原文鏈接:擴散模型版CS: GO!世界模型+強化學習:2小時訓練登頂Atari 100K
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...