50%優(yōu)勢,力壓OpenAI和DeepMind!清華DSAC系列算法全面解析
原標(biāo)題:50%優(yōu)勢,力壓OpenAI和DeepMind!清華DSAC系列算法全面解析
文章來源:新智元
內(nèi)容字?jǐn)?shù):8448字
清華大學(xué)強(qiáng)化學(xué)習(xí)重大突破:DSAC、DACER及RAD算法詳解
清華大學(xué)深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室近期在強(qiáng)化學(xué)習(xí)領(lǐng)域取得一系列突破性進(jìn)展,開發(fā)出DSAC、DSAC-T、DACER和RAD等算法,并將其集成到開源軟件GOPS中,為具身智能發(fā)展注入強(qiáng)勁動力。
1. 解決強(qiáng)化學(xué)習(xí)過估計問題:DSAC和DSAC-T算法
強(qiáng)化學(xué)習(xí)中,過估計問題一直是制約其性能提升的瓶頸。清華團(tuán)隊(duì)提出的DSAC (Distributional Soft Actor-Critic) 算法,通過學(xué)習(xí)連續(xù)型分布式值函數(shù),而非單一Q值,有效降低了過估計偏差。 DSAC算法首次從理論層面論證了分布式回報函數(shù)學(xué)習(xí)降低過估計的原理,并將其融入最大熵架構(gòu)中。然而,DSAC也存在學(xué)習(xí)不穩(wěn)定、參數(shù)敏感等問題。 因此,團(tuán)隊(duì)進(jìn)一步改進(jìn),提出了DSAC-T算法,通過期望值替換、雙值分布學(xué)習(xí)和基于方差的critic梯度調(diào)整三個方面,提升了算法的穩(wěn)定性和魯棒性。
2. 融合擴(kuò)散模型提升性能:DACER算法
DACER (Diffusion Actor-Critic with Entropy Regulator) 算法將擴(kuò)散模型與在線強(qiáng)化學(xué)習(xí)相結(jié)合,突破了傳統(tǒng)在線強(qiáng)化學(xué)習(xí)的局限。它巧妙地將擴(kuò)散模型的反向過程定義為新的策略近似函數(shù),利用擴(kuò)散模型強(qiáng)大的表示能力提升性能,并通過高斯混合模型估計策略熵,實(shí)現(xiàn)探索與利用的平衡,刷新了強(qiáng)化學(xué)習(xí)性能的世界紀(jì)錄。
3. 提升訓(xùn)練穩(wěn)定性:RAD優(yōu)化器
為了保證強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性,清華團(tuán)隊(duì)提出了RAD (Relativistic Adaptive Dynamics) 優(yōu)化器。該優(yōu)化器從動力學(xué)視角出發(fā),將神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化建模為多粒子相對論系統(tǒng)演化,賦予參數(shù)自適應(yīng)能力,確保訓(xùn)練長時域穩(wěn)定與快速收斂。在多個測試環(huán)境和主流強(qiáng)化學(xué)習(xí)算法中,RAD優(yōu)化器的綜合性能均排名第一。
4. 開源軟件GOPS:推動具身智能發(fā)展
上述算法將逐步集成到團(tuán)隊(duì)自主研發(fā)的開源軟件GOPS (General Optimal control Problem Solver) 中。GOPS以強(qiáng)化學(xué)習(xí)為核心,兼容多種機(jī)器人和工業(yè)仿真環(huán)境,能夠有效處理復(fù)雜場景的具身智能控制問題,已應(yīng)用于自動駕駛、物流機(jī)器人等領(lǐng)域。GOPS的進(jìn)一步升級將推動更多現(xiàn)實(shí)世界中的機(jī)器擁有類人的智能,加速具身智能時代的到來。
總而言之,清華大學(xué)團(tuán)隊(duì)的這些成果,不僅在算法層面取得了顯著突破,也為強(qiáng)化學(xué)習(xí)的應(yīng)用和具身智能的發(fā)展提供了重要的技術(shù)支撐。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。