AIGC動態歡迎閱讀
原標題:新測試基準發布,最強開源Llama 3尷尬了
關鍵字:提示,模型,測試,競技場,人類
文章來源:量子位
內容字數:4182字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI如果試題太簡單,學霸和學渣都能考90分,拉不開差距……
隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。
大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。
Llama 3的兩個指令微調版本實力到底如何,也有了最新參考。
與之前大家分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。
Arena-Hard利用競技場實時人類數據構建,與人類偏好一致率也高達89.1%。
除了上面兩個指標都達到SOTA之外,還有一個額外的好處:
實時更新的測試數據包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的數據泄露。
并且新模型發布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可得到結果。
有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。
新基準測試如何運作?簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...