AIGC動態歡迎閱讀
原標題:大模型權威測試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區別對待
關鍵字:模型,報告,答案,提示,選項
文章來源:量子位
內容字數:0字
內容摘要:
白交 發自 凹非寺量子位 | 公眾號 QbitAI大模型權威測試,翻車了?!
HuggingFace都在用的MMLU-PRO,被扒出評測方法更偏向閉源模型,被網友直接在GitHub Issue提出質疑。
此前MMLU原始版本早已經被各家大模型刷爆了,誰考都是高分,對前沿模型已經沒有了區分度。
號稱更強大、更具挑戰線性多任務語言基準MMLU-Pro,成了業界對大模型性能的重要參考。
但結果沒想到的是,現在有人扒出其在采樣參數、系統提示和答案提取等方面設置不公平,存在一些令人震驚的差異。
隨便對系統提示詞做了個小修改,直接將開源陣營的Llama-3-8b-q8的性能提高了10分?!
emmm……就問大模型跑分到底還能不能信了?
被扒偏向閉源模型這是源于Reddit上一位ML/AI愛好者的意外發現。
還特意做了個免責聲明,自己只是感興趣,并不是ML研究員(Doge)
出于好奇想了解它是如何工作的,于是檢查了原始repo中的代碼以及每個模型使用的提示和響應。
不看不知道,一看嚇一跳。
首先,他們不會對所有模型使用相同的參數。
其次,給每個大模型的Prompt差別也挺大啊喂?!
跟GPT-4o說
原文鏈接:大模型權威測試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區別對待
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...