Gemini表現反復橫跳……
原標題:12個大模型攢局玩“大富翁”:Claude3.5愛合作,GPT-4o最“自私”|谷歌DeepMind研究
文章來源:量子位
內容字數:3170字
大模型智能體的合作與自私行為實驗
近期一項由Google DeepMind與研究者合作的實驗探討了不同大模型智能體在“捐贈博弈”(Donor Game)中的合作與自私行為。參與實驗的智能體分別基于GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash模型,每個模型產生12個智能體,在游戲中進行資源處置博弈。
實驗設計與規則
在實驗中,每個桌子上有12個智能體,參與者手中持有一定量的資源。隨機抽取兩名玩家,捐贈者可以選擇將其資源的一部分捐贈給受贈者,受贈者獲得的資源是捐贈量的兩倍。盡管捐贈能夠增加總體資源,但對單個玩家來說,短期內選擇不捐贈的收益更高。每輪游戲進行12次,前六名資源最多的智能體得以進入下一代,而新一代智能體會從前輩中學習策略并引入隨機變異。
合作趨勢與模型表現
實驗結果顯示,不同模型的智能體在合作意識上存在顯著差異。基于Claude的智能體表現出強烈的合作意識,平均資源量在每一代中持續增長,而基于GPT的智能體則表現出自私的傾向,合作水平逐漸下降。Gemini模型的表現介于兩者之間,合作水平有所提高但仍不穩定。
懲罰機制的影響
研究者還引入了“懲罰機制”,允許捐贈者消耗資源來減少受贈者的資源。結果表明,此機制對Claude模型的影響最為積極,平均資源量約為無懲罰情況下的兩倍,且在所有實驗中均表現出增長趨勢。相對而言,懲罰機制對GPT模型的影響有限,資源量始終徘徊在較低水平,未能改變其自私行為。Gemini模型的反應則更為復雜,有時因懲罰機制而資源量顯著提升,但在許多情況下卻出現了“合作崩潰”的現象。
研究啟示與未來方向
該實驗為新的社會學研究方向提供了啟示,利用智能體進行大規模實驗可能揭示人類行為的新模式。此外,一些網友提出,可以借助智能體模擬科幻場景,如約會或戰爭游戲。然而,也有觀點認為,實驗中觀察到的合作現象可能僅是對訓練數據中人類對話的模仿,未必能證明智能體產生真正的“文化進化”。
論文地址:https://arxiv.org/abs/2412.10270
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破