AIGC動態歡迎閱讀
原標題:浙大&中科院讓Agent學會自我進化,玩德州撲克心機盡顯
關鍵字:騰訊,策略,模型,游戲,撲克
文章來源:量子位
內容字數:6612字
內容摘要:
Wenqi Zhang 投稿量子位 | 公眾號 QbitAI基于大模型的Agent,已經成為了大型的博弈游戲的高級玩家,而且玩的還是德州撲克、21點這種非完美信息博弈。
來自浙江大學、中科院軟件所等機構的研究人員提出了新的Agent進化策略,從而打造了一款會玩德州撲克的“狡猾”智能體Agent-Pro。
通過不斷優化自我構建的世界模型和行為策略,Agent-Pro掌握了虛張聲勢、主動放棄等人類高階游戲策略。
Agent-Pro以大模型為基座,通過自我優化的Prompt來建模游戲世界模型和行為策略。
相比傳統的Agent框架,Agent-Pro能夠變通地應對復雜的動態的環境,而不是僅專注于特定任務。
而且,Agent-Pro還可以通過與環境互動來優化自己的行為,從而更好地達類設定的目標。
同時作者還指出,在競爭、公司談判和安全等現實世界中遇到的情景,大多可以抽象為multi-agent博弈任務,而Agent-Pro通過對這類情境的研究,為解決眾多現實世界的問題提供了有效策略。
那么,Agent-Pro在博弈游戲中的表現究竟如何呢?
進化出游戲世界模型在研究中,作者使用了“21點”和“
原文鏈接:浙大&中科院讓Agent學會自我進化,玩德州撲克心機盡顯
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...