<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了!浙大、南棲仙策聯(lián)手推出

        AI智能體:強(qiáng)者從不抱怨環(huán)境。

        多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了!浙大、南棲仙策聯(lián)手推出

        原標(biāo)題:多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了!浙大南棲仙策聯(lián)手推出
        文章來(lái)源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):6499字

        SMAC-HARD:一個(gè)更具挑戰(zhàn)性的星際爭(zhēng)霸II多智能體強(qiáng)化學(xué)習(xí)環(huán)境

        本文介紹了由浙江大學(xué)和南棲仙策聯(lián)合推出的SMAC-HARD環(huán)境,這是一個(gè)基于星際爭(zhēng)霸II的改進(jìn)型多智能體強(qiáng)化學(xué)習(xí)(MARL)模擬環(huán)境。它旨在解決現(xiàn)有SMAC環(huán)境中對(duì)手策略單一、缺乏多樣性等問(wèn)題,從而為MARL算法評(píng)估提供更嚴(yán)峻的挑戰(zhàn)。

        1. SMAC環(huán)境的局限性

        傳統(tǒng)的SMAC(星際爭(zhēng)霸多智能體挑戰(zhàn))環(huán)境,包括SMACv1和SMACv2,都使用默認(rèn)的、單一的對(duì)手策略腳本。這導(dǎo)致MARL算法容易過(guò)擬合到特定對(duì)手策略,或利用對(duì)手策略漏洞,從而無(wú)法真實(shí)反映算法的有效性。

        2. SMAC-HARD的改進(jìn)

        SMAC-HARD環(huán)境的主要改進(jìn)在于:

        1. 可編輯的對(duì)手策略:允許用戶自定義對(duì)手策略腳本,提高環(huán)境多樣性。
        2. 隨機(jī)化對(duì)手策略:支持預(yù)定義概率混合多個(gè)對(duì)手策略,進(jìn)一步增強(qiáng)環(huán)境的復(fù)雜性。
        3. MARL自博弈接口:提供對(duì)稱接口,方便進(jìn)行MARL自博弈研究。
        4. 黑盒測(cè)試:允許對(duì)在默認(rèn)對(duì)手策略下訓(xùn)練的模型進(jìn)行黑盒測(cè)試,評(píng)估其策略覆蓋率和遷移能力。
        5. 修復(fù)SMAC獎(jiǎng)勵(lì)結(jié)算錯(cuò)誤:修正了SMAC環(huán)境中存在的獎(jiǎng)勵(lì)結(jié)算錯(cuò)誤,使實(shí)驗(yàn)結(jié)果更準(zhǔn)確。

        3. SMAC-HARD的實(shí)現(xiàn)

        SMAC-HARD基于Python的pysc2代碼包和SMAC框架實(shí)現(xiàn)。它修改了SMAC的地圖和starcraft.py文件,以支持多玩家模式、禁用默認(rèn)攻擊策略,并對(duì)玩家行動(dòng)進(jìn)行并行化處理,以減少行動(dòng)順序的影響。環(huán)境還支持使用大模型自動(dòng)生成對(duì)手策略腳本。

        4. 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果表明,在SMAC-HARD環(huán)境中,即使是那些在傳統(tǒng)SMAC環(huán)境中表現(xiàn)優(yōu)異的MARL算法,也難以保持高勝率,這突顯了SMAC-HARD環(huán)境的挑戰(zhàn)性。黑盒測(cè)試也表明,在單一對(duì)手策略下訓(xùn)練的模型,其策略遷移能力有限。 一些經(jīng)典算法在SMAC-HARD環(huán)境下,即使經(jīng)過(guò)1000萬(wàn)步訓(xùn)練,勝率也遠(yuǎn)低于在SMAC環(huán)境中的表現(xiàn)。

        5. 結(jié)論

        SMAC-HARD環(huán)境為MARL算法評(píng)估提供了新的挑戰(zhàn),促進(jìn)了自博弈方法的發(fā)展。它支持對(duì)手策略編輯、隨機(jī)化和自博弈,并提供了黑盒測(cè)試模式,有助于評(píng)估算法的策略覆蓋率和遷移能力。 該環(huán)境的推出,為MARL社區(qū)的研究提供了更具挑戰(zhàn)性和實(shí)用性的平臺(tái)。


        聯(lián)系作者

        文章來(lái)源:機(jī)器之心
        作者微信:
        作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 亚洲精品在线播放| 国产精品亚洲综合久久| 91免费在线播放| 亚洲国产高清国产拍精品| 亚洲av成人一区二区三区在线观看 | 国产免费啪嗒啪嗒视频看看| 性生大片视频免费观看一级| 久久久久亚洲精品天堂| 拍拍拍又黄又爽无挡视频免费| 一区在线免费观看| 亚洲国产高清在线精品一区| 国产乱子伦精品免费女| 午夜精品一区二区三区免费视频| 亚洲日韩一区精品射精| 亚洲开心婷婷中文字幕| 在线免费观看视频你懂的| 二个人看的www免费视频| 免费黄色网址网站| 国产精品亚洲色图| 337p日本欧洲亚洲大胆精品555588 | 成全高清在线观看免费| 亚洲综合伊人制服丝袜美腿| 亚洲中文字幕久久精品无码喷水 | 亚洲av日韩av欧v在线天堂| 久久久久久夜精品精品免费啦| 亚洲91精品麻豆国产系列在线| 亚洲一区精品伊人久久伊人| 国产免费的野战视频| 精品免费久久久久国产一区| 亚洲一区欧洲一区| 亚洲伦另类中文字幕| 亚洲av中文无码| 狠狠久久永久免费观看| 1000部啪啪未满十八勿入免费| 中文在线观看国语高清免费| 亚洲日韩在线中文字幕综合| 77777午夜亚洲| 亚洲国产精品日韩在线| 国产V亚洲V天堂无码久久久| 亚洲色偷偷狠狠综合网| 日本免费人成视频播放|