AIGC動態歡迎閱讀
原標題:GPT-4o mini排名雪崩,大模型競技場規則更新,奧特曼刷分小技巧無效了
關鍵字:模型,長度,格式,競技場,分數
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI大模型競技場規則更新,GPT-4o mini排名立刻雪崩,跌出前10。
新榜單對AI回答的長度和風格等特征做了降權處理,確保分數反映模型真正解決問題的能力。
想用漂亮的格式、增加小標題數量等技巧討好用戶、刷榜,現在統統沒用了。
在新規則下,奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降,谷歌Gemini-1.5-flash小模型也有所回落。
Claude系列、Llama-3.1-405b大模型分數則紛紛上漲。
只計算困難任務(Hard Prompt)的情況下,大模型在風格控制榜單中的優勢更加明顯。
此前GPT-4o mini小模型一度登頂,與GPT-4o滿血版并列第一,與網友的體感明顯不符。
Lmsys大模型競技場這個一度被Karpathy推薦的評價標準,口碑也跌落到“只能反映用戶喜好而不是模型能力了”。
Lmsys組織痛定思痛,先是公開了GPT-4o mini參與的1000場battle數據,從而分析出模型拒絕回答率、生成內容長度、和格式排版是影響投票結果的幾個因素。
而且奧特曼還在GPT-4o mini發布之前
原文鏈接:GPT-4o mini排名雪崩,大模型競技場規則更新,奧特曼刷分小技巧無效了
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...