多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了！浙大、南棲仙策聯(lián)手推出

AI智能體：強(qiáng)者從不抱怨環(huán)境。

原標(biāo)題：多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了！浙大、南棲仙策聯(lián)手推出
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6499字

SMAC-HARD：一個(gè)更具挑戰(zhàn)性的星際爭(zhēng)霸II多智能體強(qiáng)化學(xué)習(xí)環(huán)境

本文介紹了由浙江大學(xué)和南棲仙策聯(lián)合推出的SMAC-HARD環(huán)境，這是一個(gè)基于星際爭(zhēng)霸II的改進(jìn)型多智能體強(qiáng)化學(xué)習(xí)(MARL)模擬環(huán)境。它旨在解決現(xiàn)有SMAC環(huán)境中對(duì)手策略單一、缺乏多樣性等問(wèn)題，從而為MARL算法評(píng)估提供更嚴(yán)峻的挑戰(zhàn)。

1. SMAC環(huán)境的局限性

傳統(tǒng)的SMAC(星際爭(zhēng)霸多智能體挑戰(zhàn))環(huán)境，包括SMACv1和SMACv2，都使用默認(rèn)的、單一的對(duì)手策略腳本。這導(dǎo)致MARL算法容易過(guò)擬合到特定對(duì)手策略，或利用對(duì)手策略漏洞，從而無(wú)法真實(shí)反映算法的有效性。

2. SMAC-HARD的改進(jìn)

SMAC-HARD環(huán)境的主要改進(jìn)在于：

可編輯的對(duì)手策略：允許用戶自定義對(duì)手策略腳本，提高環(huán)境多樣性。
隨機(jī)化對(duì)手策略：支持預(yù)定義概率混合多個(gè)對(duì)手策略，進(jìn)一步增強(qiáng)環(huán)境的復(fù)雜性。
MARL自博弈接口：提供對(duì)稱接口，方便進(jìn)行MARL自博弈研究。
黑盒測(cè)試：允許對(duì)在默認(rèn)對(duì)手策略下訓(xùn)練的模型進(jìn)行黑盒測(cè)試，評(píng)估其策略覆蓋率和遷移能力。
修復(fù)SMAC獎(jiǎng)勵(lì)結(jié)算錯(cuò)誤：修正了SMAC環(huán)境中存在的獎(jiǎng)勵(lì)結(jié)算錯(cuò)誤，使實(shí)驗(yàn)結(jié)果更準(zhǔn)確。

3. SMAC-HARD的實(shí)現(xiàn)

SMAC-HARD基于Python的pysc2代碼包和SMAC框架實(shí)現(xiàn)。它修改了SMAC的地圖和starcraft.py文件，以支持多玩家模式、禁用默認(rèn)攻擊策略，并對(duì)玩家行動(dòng)進(jìn)行并行化處理，以減少行動(dòng)順序的影響。環(huán)境還支持使用大模型自動(dòng)生成對(duì)手策略腳本。

4. 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明，在SMAC-HARD環(huán)境中，即使是那些在傳統(tǒng)SMAC環(huán)境中表現(xiàn)優(yōu)異的MARL算法，也難以保持高勝率，這突顯了SMAC-HARD環(huán)境的挑戰(zhàn)性。黑盒測(cè)試也表明，在單一對(duì)手策略下訓(xùn)練的模型，其策略遷移能力有限。一些經(jīng)典算法在SMAC-HARD環(huán)境下，即使經(jīng)過(guò)1000萬(wàn)步訓(xùn)練，勝率也遠(yuǎn)低于在SMAC環(huán)境中的表現(xiàn)。

5. 結(jié)論

SMAC-HARD環(huán)境為MARL算法評(píng)估提供了新的挑戰(zhàn)，促進(jìn)了自博弈方法的發(fā)展。它支持對(duì)手策略編輯、隨機(jī)化和自博弈，并提供了黑盒測(cè)試模式，有助于評(píng)估算法的策略覆蓋率和遷移能力。該環(huán)境的推出，為MARL社區(qū)的研究提供了更具挑戰(zhàn)性和實(shí)用性的平臺(tái)。

聯(lián)系作者

文章來(lái)源：機(jī)器之心
作者微信：
作者簡(jiǎn)介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# Hard模式評(píng)估 # 仙策算法 # 南棲仙策 # 多智能體強(qiáng)化學(xué)習(xí)# 浙大

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了！浙大、南棲仙策聯(lián)手推出

AI智能體：強(qiáng)者從不抱怨環(huán)境。

SMAC-HARD：一個(gè)更具挑戰(zhàn)性的星際爭(zhēng)霸II多智能體強(qiáng)化學(xué)習(xí)環(huán)境

1. SMAC環(huán)境的局限性

2. SMAC-HARD的改進(jìn)

3. SMAC-HARD的實(shí)現(xiàn)

4. 實(shí)驗(yàn)結(jié)果

5. 結(jié)論

聯(lián)系作者

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型

奧特曼驚呼奇點(diǎn)臨近！95%人類飯碗將被AI搶走，2028年百萬(wàn)AI上崗

相關(guān)文章

暫無(wú)評(píng)論