GPT-4o mini排名雪崩，大模型競技場規(guī)則更新，奧特曼刷分小技巧無效了

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：GPT-4o mini排名雪崩，大模型競技場規(guī)則更新，奧特曼刷分小技巧無效了
關(guān)鍵字：模型,長度,格式,競技場,分?jǐn)?shù)
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夢晨發(fā)自凹非寺量子位 | 公眾號 QbitAI大模型競技場規(guī)則更新，GPT-4o mini排名立刻雪崩，跌出前10。
新榜單對AI回答的長度和風(fēng)格等特征做了降權(quán)處理，確保分?jǐn)?shù)反映模型真正解決問題的能力。
想用漂亮的格式、增加小標(biāo)題數(shù)量等技巧討好用戶、刷榜，現(xiàn)在統(tǒng)統(tǒng)沒用了。
在新規(guī)則下，奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降，谷歌Gemini-1.5-flash小模型也有所回落。
Claude系列、Llama-3.1-405b大模型分?jǐn)?shù)則紛紛上漲。
只計算困難任務(wù)（Hard Prompt）的情況下，大模型在風(fēng)格控制榜單中的優(yōu)勢更加明顯。
此前GPT-4o mini小模型一度登頂，與GPT-4o滿血版并列第一，與網(wǎng)友的體感明顯不符。
Lmsys大模型競技場這個一度被Karpathy推薦的評價標(biāo)準(zhǔn)，口碑也跌落到“只能反映用戶喜好而不是模型能力了”。
Lmsys組織痛定思痛，先是公開了GPT-4o mini參與的1000場battle數(shù)據(jù)，從而分析出模型拒絕回答率、生成內(nèi)容長度、和格式排版是影響投票結(jié)果的幾個因素。
而且奧特曼還在GPT-4o mini發(fā)布之前

原文鏈接：GPT-4o mini排名雪崩，大模型競技場規(guī)則更新，奧特曼刷分小技巧無效了