性能提升、成本降低,這是分布式強(qiáng)化學(xué)習(xí)算法最新研究進(jìn)展
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:性能提升、成本降低,這是分布式強(qiáng)化學(xué)習(xí)算法最新研究進(jìn)展
關(guān)鍵字:策略,環(huán)境,作者,分布式,速度
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):41365字
內(nèi)容摘要:
機(jī)器之心原創(chuàng)
作者:Jiying
編輯:H4O深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是一種公認(rèn)的解決連續(xù)決策問(wèn)題的有效技術(shù)。為了應(yīng)對(duì) DRL 的數(shù)據(jù)低效(data inefficiency)問(wèn)題,受到分布式機(jī)器學(xué)習(xí)技術(shù)的啟發(fā),分布式深度強(qiáng)化學(xué)習(xí) (distributed deep reinforcement learning,DDRL) 已提出并成功應(yīng)用于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域。有觀點(diǎn)認(rèn)為,分布式強(qiáng)化學(xué)習(xí)是深度強(qiáng)化學(xué)習(xí)走向大規(guī)模應(yīng)用、解決復(fù)雜決策空間和長(zhǎng)期規(guī)劃問(wèn)題的必經(jīng)之路。
分布式強(qiáng)化學(xué)習(xí)是一個(gè)綜合的研究子領(lǐng)域,需要深度強(qiáng)化學(xué)習(xí)算法以及分布式系統(tǒng)設(shè)計(jì)的互相感知和協(xié)同。考慮到 DDRL 的巨大進(jìn)步,我們梳理形成了 DDRL 技術(shù)的展歷程、挑戰(zhàn)和機(jī)遇的系列文章。我們?cè)?part 1 部分回顧了經(jīng)典的 DDRL 框架,在本部分,我們利用三篇論文,具體分析 DDRL 的今生 — 最新研究進(jìn)展。
1、SRL: Scaling Distributed Reinforcement Learning to Over TenThousand Cores
原文鏈接:性能提升、成本降低,這是分布式強(qiáng)化學(xué)習(xí)算法最新研究進(jìn)展
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)