12個大模型攢局玩“大富翁”：Claude3.5愛合作，GPT-4o最“自私”｜谷歌DeepMind研究

Gemini表現(xiàn)反復(fù)橫跳……

原標(biāo)題：12個大模型攢局玩“大富翁”：Claude3.5愛合作，GPT-4o最“自私”｜谷歌DeepMind研究
文章來源：量子位
內(nèi)容字?jǐn)?shù)：3170字

大模型智能體間的合作博弈：一場“大富翁”實(shí)驗

Google DeepMind和一位研究者近期開展了一項有趣的實(shí)驗，探究不同大型語言模型（LLM）驅(qū)動的智能體在合作博弈中的行為差異。實(shí)驗采用了一種名為“捐贈博弈”（Donor Game）的游戲，類似于大富翁游戲，但規(guī)則更簡單，重點(diǎn)在于觀察智能體間的合作程度以及對整體資源的影響。

1. 實(shí)驗設(shè)計：捐贈博弈

實(shí)驗邀請了三種不同的大型語言模型：GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash。每個模型各產(chǎn)生12個智能體，組成一桌進(jìn)行博弈。每局游戲中，系統(tǒng)隨機(jī)選擇兩個智能體，分別作為“捐贈者”和“受贈者”。捐贈者可以選擇捐出部分資源，受贈者獲得的資源是捐贈者捐贈資源的兩倍。這使得整體資源能夠增加，但對單個智能體而言，不捐贈的短期收益更高。捐贈者能夠看到受贈者之前的決策，從而做出判斷。每代進(jìn)行12次捐贈，資源最多的前6個智能體進(jìn)入下一代，并與6個新智能體（學(xué)習(xí)前一代策略并引入隨機(jī)變異）一起繼續(xù)游戲。每個模型進(jìn)行了十輪迭代，共五次實(shí)驗。

2. 實(shí)驗結(jié)果：合作與自私的較量

實(shí)驗結(jié)果顯示，不同模型的智能體展現(xiàn)出截然不同的合作傾向：

Claude 3.5 Sonnet：基于Claude的智能體群體表現(xiàn)出強(qiáng)烈的合作意愿，平均資源量每一代都穩(wěn)步增長，合作水平持續(xù)提高。
GPT-4o：基于GPT的智能體群體則表現(xiàn)出極強(qiáng)的“自私”，合作水平持續(xù)下降，只顧及自身短期利益。
Gemini 1.5 Flash：Gemini智能體的表現(xiàn)介于兩者之間，合作水平有所提高，但不如Claude穩(wěn)定，波動較大。

在策略復(fù)雜度方面，經(jīng)過十代迭代后，三種模型的智能體策略都變得復(fù)雜，但Claude最為突出。

3. 懲罰機(jī)制的影響

研究人員進(jìn)一步引入了“懲罰機(jī)制”，允許捐贈者花費(fèi)資源來減少受贈者資源的兩倍。結(jié)果顯示：

Claude：懲罰機(jī)制對Claude智能體群體影響積極，平均資源量增長到無懲罰情況下的兩倍左右，所有實(shí)驗都呈現(xiàn)增長趨勢。
GPT：懲罰機(jī)制對GPT智能體群體影響有限，平均資源量依然維持在低水平，甚至下降，說明懲罰無法改變其“自私”行為。
Gemini：懲罰機(jī)制對Gemini智能體群體的的影響最為復(fù)雜，個別情況下資源量大幅提高，但在更多情況下導(dǎo)致“合作崩潰”，平均資源量急劇下跌，這表明Gemini智能體容易陷入報復(fù)的惡性循環(huán)。

4. 結(jié)論與未來展望

該實(shí)驗揭示了不同大型語言模型在合作博弈中的差異，為研究智能體間的合作行為提供了新的視角。一些研究者認(rèn)為，這項研究可以啟發(fā)新的研究方向，例如利用智能體進(jìn)行大規(guī)模社會學(xué)實(shí)驗，甚至用于模擬復(fù)雜的社會現(xiàn)象，如約會或戰(zhàn)爭。

然而，也有人指出，實(shí)驗中觀察到的合作現(xiàn)象可能只是對訓(xùn)練數(shù)據(jù)中人類對話的模仿，并非真正的“文化進(jìn)化”。未來的研究需要進(jìn)一步探究智能體合作行為背后的機(jī)制，以及其與模型訓(xùn)練數(shù)據(jù)和架構(gòu)之間的關(guān)系。