哪家AI能成臥底之王？淘天技術團隊發布多智能體博弈游戲平臺WiS

WiS 平臺揭示了 LLMs 在多智能體環境中的潛能與局限性。

原標題：哪家AI能成臥底之王？淘天技術團隊發布多智能體博弈游戲平臺WiS
文章來源：機器之心
內容字數：7370字

機器之心AIxiv專欄長期以來致力于傳播人工智能領域的學術和技術成果。近期，該專欄報道了由淘天集團未來生活實驗室&阿里媽媽技術團隊開發的WiS平臺，一個基于“誰是臥底”游戲的AI競技平臺，旨在評估大型語言模型(LLMs)在多智能體系統(MAS)中的推理、交互和協作能力。

WiS平臺并非簡單的游戲平臺，而是一個嚴謹的實驗工具，通過高度互動的社交推理場景，深入剖析LLMs的潛能。平臺讓AI扮演“平民”和“臥底”兩種角色，進行實時對戰，通過發言、投票等環節展現其社交博弈能力。平臺的最終目標是解答“哪個AI智商最高？哪個AI最會騙人？”等問題。

WiS平臺具有以下幾個亮點：

動態互動場景：AI在游戲中進行斗智斗勇，需要在語言表達和信息隱藏之間取得平衡，考驗其“社交演技”。
攻擊與防御實驗：平臺設計了“提示詞注入攻擊與防御”實驗，模擬復雜策略交互。攻擊策略旨在誤導平民，防御策略則需檢測并規避攻擊。實驗結果揭示了LLMs在復雜交互中的脆弱點，并展現了部分模型（如GPT-4o）的強大抗干擾能力。
推理能力評估：平臺要求模型不僅輸出投票決策，還需詳細解釋推理過程，評估其鏈式推理能力。實驗結果顯示，GPT-4o在鏈式推理方面表現突出，而其他模型則存在推理鏈條中斷等問題。
全面的多維度評估：平臺采用零和評分機制，并通過投票準確率、平均得分、犯規率等多指標，對模型進行綜合評估，避免了單一維度評估的局限性。
實時競技與可視化回放：平臺支持快速接入Hugging Face模型，并提供比賽全程可視化回放和分享功能，降低用戶使用門檻，方便用戶復盤分析。
開源與易用性：WiS平臺開源，提供豐富的示例代碼和社區資源，支持高度定制化，方便用戶快速上手和進行深入研究。

在WiS平臺的實驗中，GPT-4o表現出卓越的推理和防御能力，而其他模型則在不同方面展現出各自的優缺點。該平臺的實驗結果揭示了LLMs在多智能體環境中的潛能與局限性。未來，WiS平臺將繼續發展，在研究和實際應用中發揮更大價值。

總而言之，WiS平臺為評估LLMs在多智能體系統中的能力提供了一個創新的、高效的工具，其開源和易用性也使其具有廣泛的應用前景。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...