AIGC動態歡迎閱讀
原標題:眾包新玩法!LLM競技場誕生基準測試,嚴格分離學渣學霸
關鍵字:模型,提示,基準,分數,競技場
文章來源:新智元
內容字數:6858字
內容摘要:
新智元報道編輯:alan
【新智元導讀】最公平的大模型基準測試誕生了!來自LLM競技場,最接近人類偏好,數據新鮮、速度快、成本低,嚴格分離學渣和學霸。大模型排行榜哪家強?還看LLM競技場~
截至此刻,已有共計90名LLM加入戰斗,用戶總投票數超過了77萬。
然而,在網友們吃瓜調侃新模型沖榜、老模型喪失尊嚴的同時,
人家競技場背后的組織LMSYS,已經悄悄完成了成果轉化:從實戰中誕生的最有說服力的基準測試——Arena-Hard。
而Arena-Hard所展現出的四項優勢,也正是當前的LLM基準測試最需要的:
-可分離性(87.4%)明顯優于MT-bench(22.6%);
-與Chatbot Arena的排名最相近,達到89.1%;
-運行速度快,價格便宜(25美元)
-頻繁更新實時數據
中譯中一下就是,首先這個大模型的考試要有區分度,不能讓學渣也考到90分;
其次,考試的題目應該更貼合實際,并且打分的時候要嚴格對齊人類偏好;
最后一定不能泄題,所以測試數據要經常更新,保證考試的公平;
——后兩項要求對于LLM競技場來說,簡直像是量身定做。
我們來看一下新基準測試的效果:
上圖中將A
原文鏈接:眾包新玩法!LLM競技場誕生基準測試,嚴格分離學渣學霸
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...