AIGC動態歡迎閱讀
原標題:LLM Agent在交互中學習游戲世界模型和進化行為策略
關鍵字:策略,報告,世界,環境,游戲
文章來源:人工智能學家
內容字數:8196字
內容摘要:
來源:將門創投
作者:張文祺
來源:公眾號【量子位】
目前,LLM Agent大多專注于特定任務。研究者在了解該任務的領域知識后,手工編寫大量復雜的Prompt,告知任務的規則并規范LLM 的輸入輸出的形式等。此外,大部分LLM Agent缺乏從任務環境中學習的能力, 他們無法通過與環境互動來提升自己的行為,從而更好地達類設定的目標。
因此當面對復雜的動態的環境時,例如多人德州撲克、21點等大型非完美信息博弈游戲,LLM Agent給出的決策往往不夠合理,不懂變通。那么, 在不調整模型參數的前提下,LLM Agent能否像人類一樣,在復雜動態環境中學習并持續提升,從一個新手小白進化為一個熟練的專家呢?
針對這一問題,來自浙江大學, 中科院軟件所等機構的研究者提出了Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization,具備策略級自我反思和行為優化的LLM Agent。Agent-Pro 能夠與游戲環境交互,學習游戲環境的世界模型,優化自己的行為策略,提升游戲技巧。圖1 Agent-Pro
原文鏈接:LLM Agent在交互中學習游戲世界模型和進化行為策略
聯系作者
文章來源:人工智能學家
作者微信:AItists
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...