12個大模型攢局玩“大富翁”:Claude3.5愛合作,GPT-4o最“自私”|谷歌DeepMind研究
Gemini表現(xiàn)反復(fù)橫跳……
原標(biāo)題:12個大模型攢局玩“大富翁”:Claude3.5愛合作,GPT-4o最“自私”|谷歌DeepMind研究
文章來源:量子位
內(nèi)容字?jǐn)?shù):3170字
大模型智能體間的合作博弈:一場“大富翁”實(shí)驗
Google DeepMind和一位研究者近期開展了一項有趣的實(shí)驗,探究不同大型語言模型(LLM)驅(qū)動的智能體在合作博弈中的行為差異。實(shí)驗采用了一種名為“捐贈博弈”(Donor Game)的游戲,類似于大富翁游戲,但規(guī)則更簡單,重點(diǎn)在于觀察智能體間的合作程度以及對整體資源的影響。
1. 實(shí)驗設(shè)計:捐贈博弈
實(shí)驗邀請了三種不同的大型語言模型:GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash。每個模型各產(chǎn)生12個智能體,組成一桌進(jìn)行博弈。每局游戲中,系統(tǒng)隨機(jī)選擇兩個智能體,分別作為“捐贈者”和“受贈者”。捐贈者可以選擇捐出部分資源,受贈者獲得的資源是捐贈者捐贈資源的兩倍。 這使得整體資源能夠增加,但對單個智能體而言,不捐贈的短期收益更高。捐贈者能夠看到受贈者之前的決策,從而做出判斷。每代進(jìn)行12次捐贈,資源最多的前6個智能體進(jìn)入下一代,并與6個新智能體(學(xué)習(xí)前一代策略并引入隨機(jī)變異)一起繼續(xù)游戲。每個模型進(jìn)行了十輪迭代,共五次實(shí)驗。
2. 實(shí)驗結(jié)果:合作與自私的較量
實(shí)驗結(jié)果顯示,不同模型的智能體展現(xiàn)出截然不同的合作傾向:
- Claude 3.5 Sonnet:基于Claude的智能體群體表現(xiàn)出強(qiáng)烈的合作意愿,平均資源量每一代都穩(wěn)步增長,合作水平持續(xù)提高。
- GPT-4o:基于GPT的智能體群體則表現(xiàn)出極強(qiáng)的“自私”,合作水平持續(xù)下降,只顧及自身短期利益。
- Gemini 1.5 Flash:Gemini智能體的表現(xiàn)介于兩者之間,合作水平有所提高,但不如Claude穩(wěn)定,波動較大。
在策略復(fù)雜度方面,經(jīng)過十代迭代后,三種模型的智能體策略都變得復(fù)雜,但Claude最為突出。
3. 懲罰機(jī)制的影響
研究人員進(jìn)一步引入了“懲罰機(jī)制”,允許捐贈者花費(fèi)資源來減少受贈者資源的兩倍。結(jié)果顯示:
- Claude:懲罰機(jī)制對Claude智能體群體影響積極,平均資源量增長到無懲罰情況下的兩倍左右,所有實(shí)驗都呈現(xiàn)增長趨勢。
- GPT:懲罰機(jī)制對GPT智能體群體影響有限,平均資源量依然維持在低水平,甚至下降,說明懲罰無法改變其“自私”行為。
- Gemini:懲罰機(jī)制對Gemini智能體群體的的影響最為復(fù)雜,個別情況下資源量大幅提高,但在更多情況下導(dǎo)致“合作崩潰”,平均資源量急劇下跌,這表明Gemini智能體容易陷入報復(fù)的惡性循環(huán)。
4. 結(jié)論與未來展望
該實(shí)驗揭示了不同大型語言模型在合作博弈中的差異,為研究智能體間的合作行為提供了新的視角。 一些研究者認(rèn)為,這項研究可以啟發(fā)新的研究方向,例如利用智能體進(jìn)行大規(guī)模社會學(xué)實(shí)驗,甚至用于模擬復(fù)雜的社會現(xiàn)象,如約會或戰(zhàn)爭。
然而,也有人指出,實(shí)驗中觀察到的合作現(xiàn)象可能只是對訓(xùn)練數(shù)據(jù)中人類對話的模仿,并非真正的“文化進(jìn)化”。 未來的研究需要進(jìn)一步探究智能體合作行為背后的機(jī)制,以及其與模型訓(xùn)練數(shù)據(jù)和架構(gòu)之間的關(guān)系。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破