大模型權威測試被曝翻車！更偏袒GPT-4等閉源模型，連提示詞都區別對待

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：大模型權威測試被曝翻車！更偏袒GPT-4等閉源模型，連提示詞都區別對待
關鍵字：模型,報告,答案,提示,選項
文章來源：量子位
內容字數：0字

內容摘要：

白交發自凹非寺量子位 | 公眾號 QbitAI大模型權威測試，翻車了？！
HuggingFace都在用的MMLU-PRO，被扒出評測方法更偏向閉源模型，被網友直接在GitHub Issue提出質疑。
此前MMLU原始版本早已經被各家大模型刷爆了，誰考都是高分，對前沿模型已經沒有了區分度。
號稱更強大、更具挑戰線性多任務語言基準MMLU-Pro，成了業界對大模型性能的重要參考。
但結果沒想到的是，現在有人扒出其在采樣參數、系統提示和答案提取等方面設置不公平，存在一些令人震驚的差異。
隨便對系統提示詞做了個小修改，直接將開源陣營的Llama-3-8b-q8的性能提高了10分？！
emmm……就問大模型跑分到底還能不能信了？
被扒偏向閉源模型這是源于Reddit上一位ML/AI愛好者的意外發現。
還特意做了個免責聲明，自己只是感興趣，并不是ML研究員（Doge）
出于好奇想了解它是如何工作的，于是檢查了原始repo中的代碼以及每個模型使用的提示和響應。
不看不知道，一看嚇一跳。
首先，他們不會對所有模型使用相同的參數。
其次，給每個大模型的Prompt差別也挺大啊喂？！
跟GPT-4o說

原文鏈接：大模型權威測試被曝翻車！更偏袒GPT-4等閉源模型，連提示詞都區別對待