世界模型也擴(kuò)散!訓(xùn)練出的智能體竟然不錯(cuò)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:世界模型也擴(kuò)散!訓(xùn)練出的智能體竟然不錯(cuò)
關(guān)鍵字:模型,人工智能,智能,世界,標(biāo)桿
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4291字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:小舟、陳萍在圖像生成領(lǐng)域占據(jù)主導(dǎo)地位的擴(kuò)散模型,開始挑戰(zhàn)強(qiáng)化學(xué)習(xí)智能體。世界模型提供了一種以安全且樣本高效的方式訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的方法。近期,世界模型主要對(duì)離散潛在變量序列進(jìn)行操作來(lái)模擬環(huán)境動(dòng)態(tài)。
然而,這種壓縮為緊湊離散表征的方式可能會(huì)忽略對(duì)強(qiáng)化學(xué)習(xí)很重要的視覺(jué)細(xì)節(jié)。另一方面,擴(kuò)散模型已成為圖像生成的主要方法,對(duì)離散潛在模型提出了挑戰(zhàn)。
受這種范式轉(zhuǎn)變的推動(dòng),來(lái)自日內(nèi)瓦大學(xué)、愛(ài)丁堡大學(xué)、微軟研究院的研究者聯(lián)合提出一種在擴(kuò)散世界模型中訓(xùn)練的強(qiáng)化學(xué)習(xí)智能體 —— DIAMOND(DIffusion As a Model Of eNvironment Dreams)。論文地址:https://arxiv.org/abs/2405.12399
項(xiàng)目地址:https://github.com/eloialonso/diamond
論文標(biāo)題:Diffusion for World Modeling: Visual Details Matter in Atari
DIAMOND 在 Atari 100k 基準(zhǔn)測(cè)試中獲得了 1.46 的平均人類歸一化得分 (HNS),可以媲美完
原文鏈接:世界模型也擴(kuò)散!訓(xùn)練出的智能體竟然不錯(cuò)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)