眾包新玩法！LLM競技場誕生基準測試，嚴格分離學渣學霸

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：眾包新玩法！LLM競技場誕生基準測試，嚴格分離學渣學霸
關鍵字：模型,提示,基準,分數,競技場
文章來源：新智元
內容字數：6858字

內容摘要：

新智元報道編輯：alan
【新智元導讀】最公平的大模型基準測試誕生了！來自LLM競技場，最接近人類偏好，數據新鮮、速度快、成本低，嚴格分離學渣和學霸。大模型排行榜哪家強？還看LLM競技場~
截至此刻，已有共計90名LLM加入戰斗，用戶總投票數超過了77萬。
然而，在網友們吃瓜調侃新模型沖榜、老模型喪失尊嚴的同時，
人家競技場背后的組織LMSYS，已經悄悄完成了成果轉化：從實戰中誕生的最有說服力的基準測試——Arena-Hard。
而Arena-Hard所展現出的四項優勢，也正是當前的LLM基準測試最需要的：
-可分離性（87.4%）明顯優于MT-bench（22.6%）；
-與Chatbot Arena的排名最相近，達到89.1%；
-運行速度快，價格便宜（25美元）
-頻繁更新實時數據
中譯中一下就是，首先這個大模型的考試要有區分度，不能讓學渣也考到90分；
其次，考試的題目應該更貼合實際，并且打分的時候要嚴格對齊人類偏好；
最后一定不能泄題，所以測試數據要經常更新，保證考試的公平；
——后兩項要求對于LLM競技場來說，簡直像是量身定做。
我們來看一下新基準測試的效果：
上圖中將A

原文鏈接：眾包新玩法！LLM競技場誕生基準測試，嚴格分離學渣學霸