AI智能體:強者從不抱怨環境。
SMAC-HARD:一個更具挑戰性的星際爭霸II多智能體強化學習環境
本文介紹了由浙江大學和南棲仙策聯合推出的SMAC-HARD環境,這是一個基于星際爭霸II的改進型多智能體強化學習(MARL)模擬環境。它旨在解決現有SMAC環境中對手策略單一、缺乏多樣性等問題,從而為MARL算法評估提供更嚴峻的挑戰。
1. SMAC環境的局限性
傳統的SMAC(星際爭霸多智能體挑戰)環境,包括SMACv1和SMACv2,都使用默認的、單一的對手策略腳本。這導致MARL算法容易過擬合到特定對手策略,或利用對手策略漏洞,從而無法真實反映算法的有效性。
2. SMAC-HARD的改進
SMAC-HARD環境的主要改進在于:
- 可編輯的對手策略:允許用戶自定義對手策略腳本,提高環境多樣性。
- 隨機化對手策略:支持預定義概率混合多個對手策略,進一步增強環境的復雜性。
- MARL自博弈接口:提供對稱接口,方便進行MARL自博弈研究。
- 黑盒測試:允許對在默認對手策略下訓練的模型進行黑盒測試,評估其策略覆蓋率和遷移能力。
- 修復SMAC獎勵結算錯誤:修正了SMAC環境中存在的獎勵結算錯誤,使實驗結果更準確。
3. SMAC-HARD的實現
SMAC-HARD基于Python的pysc2代碼包和SMAC框架實現。它修改了SMAC的地圖和starcraft.py文件,以支持多玩家模式、禁用默認攻擊策略,并對玩家行動進行并行化處理,以減少行動順序的影響。環境還支持使用大模型自動生成對手策略腳本。
4. 實驗結果
實驗結果表明,在SMAC-HARD環境中,即使是那些在傳統SMAC環境中表現優異的MARL算法,也難以保持高勝率,這突顯了SMAC-HARD環境的挑戰性。黑盒測試也表明,在單一對手策略下訓練的模型,其策略遷移能力有限。 一些經典算法在SMAC-HARD環境下,即使經過1000萬步訓練,勝率也遠低于在SMAC環境中的表現。
5. 結論
SMAC-HARD環境為MARL算法評估提供了新的挑戰,促進了自博弈方法的發展。它支持對手策略編輯、隨機化和自博弈,并提供了黑盒測試模式,有助于評估算法的策略覆蓋率和遷移能力。 該環境的推出,為MARL社區的研究提供了更具挑戰性和實用性的平臺。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...