浙大&中科院讓Agent學(xué)會自我進化，玩德州撲克心機盡顯

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：浙大&中科院讓Agent學(xué)會自我進化，玩德州撲克心機盡顯
關(guān)鍵字：騰訊,策略,模型,游戲,撲克
文章來源：量子位
內(nèi)容字?jǐn)?shù)：6612字

內(nèi)容摘要：

Wenqi Zhang 投稿量子位 | 公眾號 QbitAI基于大模型的Agent，已經(jīng)成為了大型的博弈游戲的高級玩家，而且玩的還是德州撲克、21點這種非完美信息博弈。
來自浙江大學(xué)、中科院軟件所等機構(gòu)的研究人員提出了新的Agent進化策略，從而打造了一款會玩德州撲克的“狡猾”智能體Agent-Pro。
通過不斷優(yōu)化自我構(gòu)建的世界模型和行為策略，Agent-Pro掌握了虛張聲勢、主動放棄等人類高階游戲策略。
Agent-Pro以大模型為基座，通過自我優(yōu)化的Prompt來建模游戲世界模型和行為策略。
相比傳統(tǒng)的Agent框架，Agent-Pro能夠變通地應(yīng)對復(fù)雜的動態(tài)的環(huán)境，而不是僅專注于特定任務(wù)。
而且，Agent-Pro還可以通過與環(huán)境互動來優(yōu)化自己的行為，從而更好地達類設(shè)定的目標(biāo)。
同時作者還指出，在競爭、公司談判和安全等現(xiàn)實世界中遇到的情景，大多可以抽象為multi-agent博弈任務(wù)，而Agent-Pro通過對這類情境的研究，為解決眾多現(xiàn)實世界的問題提供了有效策略。
那么，Agent-Pro在博弈游戲中的表現(xiàn)究竟如何呢？
進化出游戲世界模型在研究中，作者使用了“21點”和“

原文鏈接：浙大&中科院讓Agent學(xué)會自我進化，玩德州撲克心機盡顯