新測(cè)試基準(zhǔn)發(fā)布,最強(qiáng)開(kāi)源Llama 3尷尬了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:新測(cè)試基準(zhǔn)發(fā)布,最強(qiáng)開(kāi)源Llama 3尷尬了
關(guān)鍵字:提示,模型,測(cè)試,競(jìng)技場(chǎng),人類(lèi)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):4182字
內(nèi)容摘要:
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI如果試題太簡(jiǎn)單,學(xué)霸和學(xué)渣都能考90分,拉不開(kāi)差距……
隨著Claude 3、Llama 3甚至之后GPT-5等更強(qiáng)模型發(fā)布,業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測(cè)試。
大模型競(jìng)技場(chǎng)背后組織LMSYS推出下一代基準(zhǔn)測(cè)試Arena-Hard,引起廣泛關(guān)注。
Llama 3的兩個(gè)指令微調(diào)版本實(shí)力到底如何,也有了最新參考。
與之前大家分?jǐn)?shù)都相近的MT Bench相比,Arena-Hard區(qū)分度從22.6%提升到87.4%,孰強(qiáng)孰弱一目了然。
Arena-Hard利用競(jìng)技場(chǎng)實(shí)時(shí)人類(lèi)數(shù)據(jù)構(gòu)建,與人類(lèi)偏好一致率也高達(dá)89.1%。
除了上面兩個(gè)指標(biāo)都達(dá)到SOTA之外,還有一個(gè)額外的好處:
實(shí)時(shí)更新的測(cè)試數(shù)據(jù)包含人類(lèi)新想出的、AI在訓(xùn)練階段從未見(jiàn)過(guò)的提示詞,減輕潛在的數(shù)據(jù)泄露。
并且新模型發(fā)布后,無(wú)需再等待一周左右時(shí)間讓人類(lèi)用戶(hù)參與投票,只需花費(fèi)25美元快速運(yùn)行測(cè)試管線,即可得到結(jié)果。
有網(wǎng)友評(píng)價(jià),使用真實(shí)用戶(hù)提示詞而不是高中考試來(lái)測(cè)試,真的很重要。
新基準(zhǔn)測(cè)試如何運(yùn)作?簡(jiǎn)單來(lái)說(shuō),通過(guò)大模型競(jìng)技場(chǎng)20萬(wàn)個(gè)用戶(hù)查詢(xún)中,挑選500個(gè)高質(zhì)量提示詞作為測(cè)試集。
原文鏈接:新測(cè)試基準(zhǔn)發(fā)布,最強(qiáng)開(kāi)源Llama 3尷尬了
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破