大模型權(quán)威測試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區(qū)別對(duì)待
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型權(quán)威測試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區(qū)別對(duì)待
關(guān)鍵字:模型,報(bào)告,答案,提示,選項(xiàng)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
白交 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI大模型權(quán)威測試,翻車了?!
HuggingFace都在用的MMLU-PRO,被扒出評(píng)測方法更偏向閉源模型,被網(wǎng)友直接在GitHub Issue提出質(zhì)疑。
此前MMLU原始版本早已經(jīng)被各家大模型刷爆了,誰考都是高分,對(duì)前沿模型已經(jīng)沒有了區(qū)分度。
號(hào)稱更強(qiáng)大、更具挑戰(zhàn)線性多任務(wù)語言基準(zhǔn)MMLU-Pro,成了業(yè)界對(duì)大模型性能的重要參考。
但結(jié)果沒想到的是,現(xiàn)在有人扒出其在采樣參數(shù)、系統(tǒng)提示和答案提取等方面設(shè)置不公平,存在一些令人震驚的差異。
隨便對(duì)系統(tǒng)提示詞做了個(gè)小修改,直接將開源陣營的Llama-3-8b-q8的性能提高了10分?!
emmm……就問大模型跑分到底還能不能信了?
被扒偏向閉源模型這是源于Reddit上一位ML/AI愛好者的意外發(fā)現(xiàn)。
還特意做了個(gè)免責(zé)聲明,自己只是感興趣,并不是ML研究員(Doge)
出于好奇想了解它是如何工作的,于是檢查了原始repo中的代碼以及每個(gè)模型使用的提示和響應(yīng)。
不看不知道,一看嚇一跳。
首先,他們不會(huì)對(duì)所有模型使用相同的參數(shù)。
其次,給每個(gè)大模型的Prompt差別也挺大啊喂?!
跟GPT-4o說
原文鏈接:大模型權(quán)威測試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區(qū)別對(duì)待
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破