50%優(yōu)勢，力壓OpenAI和DeepMind！清華DSAC系列算法全面解析

原標(biāo)題：50%優(yōu)勢，力壓OpenAI和DeepMind！清華DSAC系列算法全面解析
文章來源：新智元
內(nèi)容字?jǐn)?shù)：8448字

清華大學(xué)強(qiáng)化學(xué)習(xí)重大突破：DSAC、DACER及RAD算法詳解

清華大學(xué)深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室近期在強(qiáng)化學(xué)習(xí)領(lǐng)域取得一系列突破性進(jìn)展，開發(fā)出DSAC、DSAC-T、DACER和RAD等算法，并將其集成到開源軟件GOPS中，為具身智能發(fā)展注入強(qiáng)勁動力。

1. 解決強(qiáng)化學(xué)習(xí)過估計問題：DSAC和DSAC-T算法

強(qiáng)化學(xué)習(xí)中，過估計問題一直是制約其性能提升的瓶頸。清華團(tuán)隊(duì)提出的DSAC (Distributional Soft Actor-Critic) 算法，通過學(xué)習(xí)連續(xù)型分布式值函數(shù)，而非單一Q值，有效降低了過估計偏差。 DSAC算法首次從理論層面論證了分布式回報函數(shù)學(xué)習(xí)降低過估計的原理，并將其融入最大熵架構(gòu)中。然而，DSAC也存在學(xué)習(xí)不穩(wěn)定、參數(shù)敏感等問題。因此，團(tuán)隊(duì)進(jìn)一步改進(jìn)，提出了DSAC-T算法，通過期望值替換、雙值分布學(xué)習(xí)和基于方差的critic梯度調(diào)整三個方面，提升了算法的穩(wěn)定性和魯棒性。

2. 融合擴(kuò)散模型提升性能：DACER算法

DACER (Diffusion Actor-Critic with Entropy Regulator) 算法將擴(kuò)散模型與在線強(qiáng)化學(xué)習(xí)相結(jié)合，突破了傳統(tǒng)在線強(qiáng)化學(xué)習(xí)的局限。它巧妙地將擴(kuò)散模型的反向過程定義為新的策略近似函數(shù)，利用擴(kuò)散模型強(qiáng)大的表示能力提升性能，并通過高斯混合模型估計策略熵，實(shí)現(xiàn)探索與利用的平衡，刷新了強(qiáng)化學(xué)習(xí)性能的世界紀(jì)錄。

3. 提升訓(xùn)練穩(wěn)定性：RAD優(yōu)化器

為了保證強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性，清華團(tuán)隊(duì)提出了RAD (Relativistic Adaptive Dynamics) 優(yōu)化器。該優(yōu)化器從動力學(xué)視角出發(fā)，將神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化建模為多粒子相對論系統(tǒng)演化，賦予參數(shù)自適應(yīng)能力，確保訓(xùn)練長時域穩(wěn)定與快速收斂。在多個測試環(huán)境和主流強(qiáng)化學(xué)習(xí)算法中，RAD優(yōu)化器的綜合性能均排名第一。

4. 開源軟件GOPS：推動具身智能發(fā)展

上述算法將逐步集成到團(tuán)隊(duì)自主研發(fā)的開源軟件GOPS (General Optimal control Problem Solver) 中。GOPS以強(qiáng)化學(xué)習(xí)為核心，兼容多種機(jī)器人和工業(yè)仿真環(huán)境，能夠有效處理復(fù)雜場景的具身智能控制問題，已應(yīng)用于自動駕駛、物流機(jī)器人等領(lǐng)域。GOPS的進(jìn)一步升級將推動更多現(xiàn)實(shí)世界中的機(jī)器擁有類人的智能，加速具身智能時代的到來。

總而言之，清華大學(xué)團(tuán)隊(duì)的這些成果，不僅在算法層面取得了顯著突破，也為強(qiáng)化學(xué)習(xí)的應(yīng)用和具身智能的發(fā)展提供了重要的技術(shù)支撐。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時代。

閱讀原文

# AIGC動態(tài)# 50優(yōu)勢AI算法 # AI算法全面解析 # DeepMind算法對比 # OpenAI算法對比 # 清華大學(xué)DSAC算法

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

50%優(yōu)勢，力壓OpenAI和DeepMind！清華DSAC系列算法全面解析

清華大學(xué)強(qiáng)化學(xué)習(xí)重大突破：DSAC、DACER及RAD算法詳解

1. 解決強(qiáng)化學(xué)習(xí)過估計問題：DSAC和DSAC-T算法

2. 融合擴(kuò)散模型提升性能：DACER算法

3. 提升訓(xùn)練穩(wěn)定性：RAD優(yōu)化器

4. 開源軟件GOPS：推動具身智能發(fā)展

聯(lián)系作者

TPAMI-2024 | Uni-AdaFocus視頻理解框架，讓AI學(xué)會「劃重點(diǎn)」，計算效率提升4-23倍！

賣身、豪賭Killer App的AI 廠商：被“吊”麻了，明年咋活？

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)