多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了!浙大、南棲仙策聯(lián)手推出
AI智能體:強(qiáng)者從不抱怨環(huán)境。
原標(biāo)題:多智能體強(qiáng)化學(xué)習(xí)算法評(píng)估Hard模式來(lái)了!浙大、南棲仙策聯(lián)手推出
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6499字
SMAC-HARD:一個(gè)更具挑戰(zhàn)性的星際爭(zhēng)霸II多智能體強(qiáng)化學(xué)習(xí)環(huán)境
本文介紹了由浙江大學(xué)和南棲仙策聯(lián)合推出的SMAC-HARD環(huán)境,這是一個(gè)基于星際爭(zhēng)霸II的改進(jìn)型多智能體強(qiáng)化學(xué)習(xí)(MARL)模擬環(huán)境。它旨在解決現(xiàn)有SMAC環(huán)境中對(duì)手策略單一、缺乏多樣性等問(wèn)題,從而為MARL算法評(píng)估提供更嚴(yán)峻的挑戰(zhàn)。
1. SMAC環(huán)境的局限性
傳統(tǒng)的SMAC(星際爭(zhēng)霸多智能體挑戰(zhàn))環(huán)境,包括SMACv1和SMACv2,都使用默認(rèn)的、單一的對(duì)手策略腳本。這導(dǎo)致MARL算法容易過(guò)擬合到特定對(duì)手策略,或利用對(duì)手策略漏洞,從而無(wú)法真實(shí)反映算法的有效性。
2. SMAC-HARD的改進(jìn)
SMAC-HARD環(huán)境的主要改進(jìn)在于:
- 可編輯的對(duì)手策略:允許用戶自定義對(duì)手策略腳本,提高環(huán)境多樣性。
- 隨機(jī)化對(duì)手策略:支持預(yù)定義概率混合多個(gè)對(duì)手策略,進(jìn)一步增強(qiáng)環(huán)境的復(fù)雜性。
- MARL自博弈接口:提供對(duì)稱接口,方便進(jìn)行MARL自博弈研究。
- 黑盒測(cè)試:允許對(duì)在默認(rèn)對(duì)手策略下訓(xùn)練的模型進(jìn)行黑盒測(cè)試,評(píng)估其策略覆蓋率和遷移能力。
- 修復(fù)SMAC獎(jiǎng)勵(lì)結(jié)算錯(cuò)誤:修正了SMAC環(huán)境中存在的獎(jiǎng)勵(lì)結(jié)算錯(cuò)誤,使實(shí)驗(yàn)結(jié)果更準(zhǔn)確。
3. SMAC-HARD的實(shí)現(xiàn)
SMAC-HARD基于Python的pysc2代碼包和SMAC框架實(shí)現(xiàn)。它修改了SMAC的地圖和starcraft.py文件,以支持多玩家模式、禁用默認(rèn)攻擊策略,并對(duì)玩家行動(dòng)進(jìn)行并行化處理,以減少行動(dòng)順序的影響。環(huán)境還支持使用大模型自動(dòng)生成對(duì)手策略腳本。
4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,在SMAC-HARD環(huán)境中,即使是那些在傳統(tǒng)SMAC環(huán)境中表現(xiàn)優(yōu)異的MARL算法,也難以保持高勝率,這突顯了SMAC-HARD環(huán)境的挑戰(zhàn)性。黑盒測(cè)試也表明,在單一對(duì)手策略下訓(xùn)練的模型,其策略遷移能力有限。 一些經(jīng)典算法在SMAC-HARD環(huán)境下,即使經(jīng)過(guò)1000萬(wàn)步訓(xùn)練,勝率也遠(yuǎn)低于在SMAC環(huán)境中的表現(xiàn)。
5. 結(jié)論
SMAC-HARD環(huán)境為MARL算法評(píng)估提供了新的挑戰(zhàn),促進(jìn)了自博弈方法的發(fā)展。它支持對(duì)手策略編輯、隨機(jī)化和自博弈,并提供了黑盒測(cè)試模式,有助于評(píng)估算法的策略覆蓋率和遷移能力。 該環(huán)境的推出,為MARL社區(qū)的研究提供了更具挑戰(zhàn)性和實(shí)用性的平臺(tái)。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)