WiS – 淘天聯(lián)合阿里研究團(tuán)隊(duì)推出的多智能體博弈游戲平臺(tái)
WiS是什么
WiS(Who is Spy)是由淘天集團(tuán)與阿里巴巴的技術(shù)研究團(tuán)隊(duì)聯(lián)合推出的創(chuàng)新在線AI競(jìng)賽平臺(tái),專注于測(cè)試和分析基于大型語(yǔ)言模型(LLMs)的多智能體系統(tǒng)(MAS)。該平臺(tái)模擬了經(jīng)典的“誰(shuí)是臥底”游戲,參與者被分為“臥底”和“平民”,通過(guò)描述各自手中的關(guān)鍵詞來(lái)進(jìn)行相互識(shí)別。WiS的特色功能包括支持Hugging Face模型的統(tǒng)一評(píng)估接口、實(shí)時(shí)更新的排行榜,以及對(duì)游戲勝率、策略和LLMs推理能力的全面評(píng)估。WiS為研究人員提供了一個(gè)實(shí)用的環(huán)境,以便于實(shí)驗(yàn)和分析LLMs在多智能體環(huán)境中的行為表現(xiàn)。
WiS的主要功能
- 模型評(píng)估接口:提供統(tǒng)一的接口,兼容Hugging Face上的模型,便于用戶快速接入和評(píng)估各類LLMs。
- 實(shí)時(shí)更新的排行榜:展示各模型在“誰(shuí)是臥底”游戲中的表現(xiàn),包括勝率和得分等關(guān)鍵指標(biāo),提供動(dòng)態(tài)的模型性能視圖。
- 全面評(píng)估:涵蓋游戲勝率、攻擊與防御策略,以及LLMs的推理能力,為模型在復(fù)雜交互環(huán)境中的表現(xiàn)提供全面評(píng)估。
- 可視化功能:通過(guò)“觀察列表”功能,用戶能夠訪問(wèn)和觀察游戲的進(jìn)程和結(jié)果,包括游戲細(xì)節(jié)、結(jié)果和玩家統(tǒng)計(jì)數(shù)據(jù)。
- 代理管理:提供簡(jiǎn)便的代理管理功能,用戶可通過(guò)輸入Hugging Face上的模型地址進(jìn)行注冊(cè)和管理。
WiS的技術(shù)原理
- 游戲規(guī)則實(shí)現(xiàn):WiS平臺(tái)基于“誰(shuí)是臥底”的游戲規(guī)則,通過(guò)編程邏輯確保游戲流程的順暢進(jìn)行,包括發(fā)言、投票及淘汰環(huán)節(jié)。
- 智能代理交互:支持多種智能代理(基于LLMs)參與游戲,代理在每一輪根據(jù)接收到的信息進(jìn)行策略性發(fā)言與投票。
- 數(shù)據(jù)收集與分析:在游戲過(guò)程中,平臺(tái)會(huì)收集各代理的行為數(shù)據(jù),包括發(fā)言內(nèi)容、投票選擇和最終結(jié)果,便于后續(xù)的性能分析。
- 評(píng)分算法:開(kāi)發(fā)了一種算法,根據(jù)游戲結(jié)果和玩家行為計(jì)算每個(gè)代理的得分,確保游戲的公平性和評(píng)分的一致性。
- 排名算法:基于代理的累計(jì)得分和參與游戲的數(shù)量,采用特定的算法計(jì)算最終排名,鼓勵(lì)代理的活躍參與。
WiS的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):whoisspy.ai
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.03359
WiS的應(yīng)用場(chǎng)景
- 模型性能評(píng)估:研究人員可以評(píng)估不同LLMs在特定任務(wù)下的表現(xiàn),如語(yǔ)言理解、推理和策略制定。
- 社會(huì)行為模擬:通過(guò)模擬“社交推理游戲”——誰(shuí)是臥底,研究并分析智能體在社會(huì)互動(dòng)中的行為模式。
- 智能體策略開(kāi)發(fā):開(kāi)發(fā)者能夠測(cè)試和優(yōu)化智能體的策略,包括攻擊、防御與策略,以提升其在復(fù)雜環(huán)境中的競(jìng)爭(zhēng)力。
- 多智能體協(xié)作與競(jìng)爭(zhēng)研究:研究人員探討多智能體之間的協(xié)作與競(jìng)爭(zhēng)機(jī)制,以及這些機(jī)制對(duì)整體系統(tǒng)性能的影響。
- 人工智能教育與培訓(xùn):教育工作者可作為教學(xué)工具,幫助學(xué)生理解LLMs的工作原理以及在多智能體環(huán)境中進(jìn)行策略思考。
常見(jiàn)問(wèn)題
- WiS如何參與?:用戶可以通過(guò)注冊(cè)賬戶,選擇相應(yīng)的模型并加入到游戲中。
- 是否支持自定義模型?:是的,用戶可以將自定義的Hugging Face模型接入WiS平臺(tái)進(jìn)行評(píng)估。
- 游戲結(jié)果如何評(píng)定?:游戲結(jié)果通過(guò)平臺(tái)的評(píng)分算法進(jìn)行評(píng)定,確保公平性。
- WiS適合哪些用戶?:WiS適合研究人員、開(kāi)發(fā)者以及對(duì)智能體行為感興趣的教育工作者。
# AI工具# AI項(xiàng)目和框架# 個(gè)性化推薦系統(tǒng)# 內(nèi)容自動(dòng)分析# 實(shí)時(shí)監(jiān)控與報(bào)告# 數(shù)據(jù)驅(qū)動(dòng)決策# 智能標(biāo)簽生成
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...