AIGC動態歡迎閱讀
原標題:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復
關鍵字:問題,任務,模型,團隊,提示
文章來源:量子位
內容字數:3629字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI谷歌Gemini實力到底如何?梅隆大學來了場專業客觀第三方比較。
為保證公平,所有模型使用相同的提示和生成參數,并且提供可重復的代碼和完全透明的結果。
不會像谷歌官方發布會那樣,用CoT@32對比5-shot了。
一句話結果:Gemini Pro版本接近但略遜于GPT-3.5 Turbo,GPT-4還是遙遙領先。
在深入分析中還發現Gemini一些奇怪特性,比如選擇題喜歡選D……
不少研究者表示,太卷了,Gemini剛發布沒幾天就搞出這么詳細的測試。
六大任務深入測試這項測試具體比較了6大任務,分別選用相應的數據集:
知識問答:MMLU
推理:BIG-Bench Hard
數學:GSM8k、SVAMP、ASDIV、MAWPS
代碼:HumanEval、ODEX
翻譯:FLORES
上網沖浪:WebArena
知識問答:喜歡選D從結果可以看出,使用思維鏈提示在這類任務上不一定能帶來提升。
MMLU數據集里都是多選題,對結果進一步分析還發現奇怪現象:Gemini更喜歡選D。
GPT系列在4個選項上的分布就要平衡很多,團隊提出這可能是G
原文鏈接:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...