GPT-4o mini排名雪崩,大模型競技場規(guī)則更新,奧特曼刷分小技巧無效了

AIGC動態(tài)歡迎閱讀
原標(biāo)題:GPT-4o mini排名雪崩,大模型競技場規(guī)則更新,奧特曼刷分小技巧無效了
關(guān)鍵字:模型,長度,格式,競技場,分?jǐn)?shù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大模型競技場規(guī)則更新,GPT-4o mini排名立刻雪崩,跌出前10。
新榜單對AI回答的長度和風(fēng)格等特征做了降權(quán)處理,確保分?jǐn)?shù)反映模型真正解決問題的能力。
想用漂亮的格式、增加小標(biāo)題數(shù)量等技巧討好用戶、刷榜,現(xiàn)在統(tǒng)統(tǒng)沒用了。
在新規(guī)則下,奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降,谷歌Gemini-1.5-flash小模型也有所回落。
Claude系列、Llama-3.1-405b大模型分?jǐn)?shù)則紛紛上漲。
只計算困難任務(wù)(Hard Prompt)的情況下,大模型在風(fēng)格控制榜單中的優(yōu)勢更加明顯。
此前GPT-4o mini小模型一度登頂,與GPT-4o滿血版并列第一,與網(wǎng)友的體感明顯不符。
Lmsys大模型競技場這個一度被Karpathy推薦的評價標(biāo)準(zhǔn),口碑也跌落到“只能反映用戶喜好而不是模型能力了”。
Lmsys組織痛定思痛,先是公開了GPT-4o mini參與的1000場battle數(shù)據(jù),從而分析出模型拒絕回答率、生成內(nèi)容長度、和格式排版是影響投票結(jié)果的幾個因素。
而且奧特曼還在GPT-4o mini發(fā)布之前
原文鏈接:GPT-4o mini排名雪崩,大模型競技場規(guī)則更新,奧特曼刷分小技巧無效了
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號