Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復(fù)

AIGC動態(tài)歡迎閱讀
原標題:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復(fù)
關(guān)鍵字:問題,任務(wù),模型,團隊,提示
文章來源:量子位
內(nèi)容字數(shù):3629字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI谷歌Gemini實力到底如何?梅隆大學(xué)來了場專業(yè)客觀第三方比較。
為保證公平,所有模型使用相同的提示和生成參數(shù),并且提供可重復(fù)的代碼和完全透明的結(jié)果。
不會像谷歌官方發(fā)布會那樣,用CoT@32對比5-shot了。
一句話結(jié)果:Gemini Pro版本接近但略遜于GPT-3.5 Turbo,GPT-4還是遙遙領(lǐng)先。
在深入分析中還發(fā)現(xiàn)Gemini一些奇怪特性,比如選擇題喜歡選D……
不少研究者表示,太卷了,Gemini剛發(fā)布沒幾天就搞出這么詳細的測試。
六大任務(wù)深入測試這項測試具體比較了6大任務(wù),分別選用相應(yīng)的數(shù)據(jù)集:
知識問答:MMLU
推理:BIG-Bench Hard
數(shù)學(xué):GSM8k、SVAMP、ASDIV、MAWPS
代碼:HumanEval、ODEX
翻譯:FLORES
上網(wǎng)沖浪:WebArena
知識問答:喜歡選D從結(jié)果可以看出,使用思維鏈提示在這類任務(wù)上不一定能帶來提升。
MMLU數(shù)據(jù)集里都是多選題,對結(jié)果進一步分析還發(fā)現(xiàn)奇怪現(xiàn)象:Gemini更喜歡選D。
GPT系列在4個選項上的分布就要平衡很多,團隊提出這可能是G
原文鏈接:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復(fù)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號