新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了
關(guān)鍵字：提示,模型,測試,競技場,人類
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4182字

內(nèi)容摘要：

夢晨發(fā)自凹非寺量子位 | 公眾號 QbitAI如果試題太簡單，學(xué)霸和學(xué)渣都能考90分，拉不開差距……
隨著Claude 3、Llama 3甚至之后GPT-5等更強(qiáng)模型發(fā)布，業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測試。
大模型競技場背后組織LMSYS推出下一代基準(zhǔn)測試Arena-Hard，引起廣泛關(guān)注。
Llama 3的兩個(gè)指令微調(diào)版本實(shí)力到底如何，也有了最新參考。
與之前大家分?jǐn)?shù)都相近的MT Bench相比，Arena-Hard區(qū)分度從22.6%提升到87.4%，孰強(qiáng)孰弱一目了然。
Arena-Hard利用競技場實(shí)時(shí)人類數(shù)據(jù)構(gòu)建，與人類偏好一致率也高達(dá)89.1%。
除了上面兩個(gè)指標(biāo)都達(dá)到SOTA之外，還有一個(gè)額外的好處：
實(shí)時(shí)更新的測試數(shù)據(jù)包含人類新想出的、AI在訓(xùn)練階段從未見過的提示詞，減輕潛在的數(shù)據(jù)泄露。
并且新模型發(fā)布后，無需再等待一周左右時(shí)間讓人類用戶參與投票，只需花費(fèi)25美元快速運(yùn)行測試管線，即可得到結(jié)果。
有網(wǎng)友評價(jià)，使用真實(shí)用戶提示詞而不是高中考試來測試，真的很重要。
新基準(zhǔn)測試如何運(yùn)作？簡單來說，通過大模型競技場20萬個(gè)用戶查詢中，挑選500個(gè)高質(zhì)量提示詞作為測試集。

原文鏈接：新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了