<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        50%優(yōu)勢,力壓OpenAI和DeepMind!清華DSAC系列算法全面解析

        AIGC動態(tài)4個月前發(fā)布 新智元
        280 0 0

        50%優(yōu)勢,力壓OpenAI和DeepMind!清華DSAC系列算法全面解析

        原標(biāo)題:50%優(yōu)勢,力壓OpenAI和DeepMind!清華DSAC系列算法全面解析
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):8448字

        清華大學(xué)強(qiáng)化學(xué)習(xí)重大突破:DSAC、DACER及RAD算法詳解

        清華大學(xué)深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室近期在強(qiáng)化學(xué)習(xí)領(lǐng)域取得一系列突破性進(jìn)展,開發(fā)出DSAC、DSAC-T、DACER和RAD等算法,并將其集成到開源軟件GOPS中,為具身智能發(fā)展注入強(qiáng)勁動力。

        1. 解決強(qiáng)化學(xué)習(xí)過估計問題:DSAC和DSAC-T算法

        強(qiáng)化學(xué)習(xí)中,過估計問題一直是制約其性能提升的瓶頸。清華團(tuán)隊(duì)提出的DSAC (Distributional Soft Actor-Critic) 算法,通過學(xué)習(xí)連續(xù)型分布式值函數(shù),而非單一Q值,有效降低了過估計偏差。 DSAC算法首次從理論層面論證了分布式回報函數(shù)學(xué)習(xí)降低過估計的原理,并將其融入最大熵架構(gòu)中。然而,DSAC也存在學(xué)習(xí)不穩(wěn)定、參數(shù)敏感等問題。 因此,團(tuán)隊(duì)進(jìn)一步改進(jìn),提出了DSAC-T算法,通過期望值替換、雙值分布學(xué)習(xí)和基于方差的critic梯度調(diào)整三個方面,提升了算法的穩(wěn)定性和魯棒性。

        2. 融合擴(kuò)散模型提升性能:DACER算法

        DACER (Diffusion Actor-Critic with Entropy Regulator) 算法將擴(kuò)散模型與在線強(qiáng)化學(xué)習(xí)相結(jié)合,突破了傳統(tǒng)在線強(qiáng)化學(xué)習(xí)的局限。它巧妙地將擴(kuò)散模型的反向過程定義為新的策略近似函數(shù),利用擴(kuò)散模型強(qiáng)大的表示能力提升性能,并通過高斯混合模型估計策略熵,實(shí)現(xiàn)探索與利用的平衡,刷新了強(qiáng)化學(xué)習(xí)性能的世界紀(jì)錄。

        3. 提升訓(xùn)練穩(wěn)定性:RAD優(yōu)化器

        為了保證強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性,清華團(tuán)隊(duì)提出了RAD (Relativistic Adaptive Dynamics) 優(yōu)化器。該優(yōu)化器從動力學(xué)視角出發(fā),將神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化建模為多粒子相對論系統(tǒng)演化,賦予參數(shù)自適應(yīng)能力,確保訓(xùn)練長時域穩(wěn)定與快速收斂。在多個測試環(huán)境和主流強(qiáng)化學(xué)習(xí)算法中,RAD優(yōu)化器的綜合性能均排名第一。

        4. 開源軟件GOPS:推動具身智能發(fā)展

        上述算法將逐步集成到團(tuán)隊(duì)自主研發(fā)的開源軟件GOPS (General Optimal control Problem Solver) 中。GOPS以強(qiáng)化學(xué)習(xí)為核心,兼容多種機(jī)器人和工業(yè)仿真環(huán)境,能夠有效處理復(fù)雜場景的具身智能控制問題,已應(yīng)用于自動駕駛、物流機(jī)器人等領(lǐng)域。GOPS的進(jìn)一步升級將推動更多現(xiàn)實(shí)世界中的機(jī)器擁有類人的智能,加速具身智能時代的到來。

        總而言之,清華大學(xué)團(tuán)隊(duì)的這些成果,不僅在算法層面取得了顯著突破,也為強(qiáng)化學(xué)習(xí)的應(yīng)用和具身智能的發(fā)展提供了重要的技術(shù)支撐。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费精品99久久国产综合精品| 精品亚洲国产成AV人片传媒| 日韩免费视频播播| 18禁超污无遮挡无码免费网站国产| 50岁老女人的毛片免费观看| 日本一区二区免费看| 国产精品99精品久久免费| 日韩电影免费观看| 99re6在线精品视频免费播放| 欧洲精品99毛片免费高清观看| 97国产在线公开免费观看| 最近中文字幕mv免费高清在线| 日韩在线免费视频| 毛片a级毛片免费播放100| 国产精品冒白浆免费视频| 又粗又大又猛又爽免费视频| 日本亚洲色大成网站www久久| 中国亚洲呦女专区| 亚洲成熟丰满熟妇高潮XXXXX| 免费人成视频在线播放| WWW免费视频在线观看播放| 黄色网站软件app在线观看免费| 男女午夜24式免费视频| 3d动漫精品啪啪一区二区免费| 在线观看免费人成视频| 在线视频免费国产成人| 国产日产亚洲系列| 久久精品国产亚洲AV高清热| 亚洲欧美国产国产综合一区| 黄页网站在线免费观看| 182tv免费视频在线观看 | 亚洲理论片中文字幕电影| 亚洲女人初试黑人巨高清| 亚洲国产成人精品无码区花野真一| 人人爽人人爽人人片A免费| 嫩草影院在线播放www免费观看| 日日麻批免费40分钟日本的| 国产一级淫片a免费播放口之| 亚洲男人的天堂www| 亚洲精品电影天堂网| 看免费毛片天天看|