Gemini表現反復橫跳……
原標題:12個大模型攢局玩“大富翁”:Claude3.5愛合作,GPT-4o最“自私”|谷歌DeepMind研究
文章來源:量子位
內容字數:3170字
大模型智能體間的合作博弈:一場“大富翁”實驗
Google DeepMind和一位研究者近期開展了一項有趣的實驗,探究不同大型語言模型(LLM)驅動的智能體在合作博弈中的行為差異。實驗采用了一種名為“捐贈博弈”(Donor Game)的游戲,類似于大富翁游戲,但規則更簡單,重點在于觀察智能體間的合作程度以及對整體資源的影響。
1. 實驗設計:捐贈博弈
實驗邀請了三種不同的大型語言模型:GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash。每個模型各產生12個智能體,組成一桌進行博弈。每局游戲中,系統隨機選擇兩個智能體,分別作為“捐贈者”和“受贈者”。捐贈者可以選擇捐出部分資源,受贈者獲得的資源是捐贈者捐贈資源的兩倍。 這使得整體資源能夠增加,但對單個智能體而言,不捐贈的短期收益更高。捐贈者能夠看到受贈者之前的決策,從而做出判斷。每代進行12次捐贈,資源最多的前6個智能體進入下一代,并與6個新智能體(學習前一代策略并引入隨機變異)一起繼續游戲。每個模型進行了十輪迭代,共五次實驗。
2. 實驗結果:合作與自私的較量
實驗結果顯示,不同模型的智能體展現出截然不同的合作傾向:
- Claude 3.5 Sonnet:基于Claude的智能體群體表現出強烈的合作意愿,平均資源量每一代都穩步增長,合作水平持續提高。
- GPT-4o:基于GPT的智能體群體則表現出極強的“自私”,合作水平持續下降,只顧及自身短期利益。
- Gemini 1.5 Flash:Gemini智能體的表現介于兩者之間,合作水平有所提高,但不如Claude穩定,波動較大。
在策略復雜度方面,經過十代迭代后,三種模型的智能體策略都變得復雜,但Claude最為突出。
3. 懲罰機制的影響
研究人員進一步引入了“懲罰機制”,允許捐贈者花費資源來減少受贈者資源的兩倍。結果顯示:
- Claude:懲罰機制對Claude智能體群體影響積極,平均資源量增長到無懲罰情況下的兩倍左右,所有實驗都呈現增長趨勢。
- GPT:懲罰機制對GPT智能體群體影響有限,平均資源量依然維持在低水平,甚至下降,說明懲罰無法改變其“自私”行為。
- Gemini:懲罰機制對Gemini智能體群體的的影響最為復雜,個別情況下資源量大幅提高,但在更多情況下導致“合作崩潰”,平均資源量急劇下跌,這表明Gemini智能體容易陷入報復的惡性循環。
4. 結論與未來展望
該實驗揭示了不同大型語言模型在合作博弈中的差異,為研究智能體間的合作行為提供了新的視角。 一些研究者認為,這項研究可以啟發新的研究方向,例如利用智能體進行大規模社會學實驗,甚至用于模擬復雜的社會現象,如約會或戰爭。
然而,也有人指出,實驗中觀察到的合作現象可能只是對訓練數據中人類對話的模仿,并非真正的“文化進化”。 未來的研究需要進一步探究智能體合作行為背后的機制,以及其與模型訓練數據和架構之間的關系。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破