眾包新玩法!LLM競(jìng)技場(chǎng)誕生基準(zhǔn)測(cè)試,嚴(yán)格分離學(xué)渣學(xué)霸
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:眾包新玩法!LLM競(jìng)技場(chǎng)誕生基準(zhǔn)測(cè)試,嚴(yán)格分離學(xué)渣學(xué)霸
關(guān)鍵字:模型,提示,基準(zhǔn),分?jǐn)?shù),競(jìng)技場(chǎng)
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6858字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】最公平的大模型基準(zhǔn)測(cè)試誕生了!來(lái)自LLM競(jìng)技場(chǎng),最接近人類(lèi)偏好,數(shù)據(jù)新鮮、速度快、成本低,嚴(yán)格分離學(xué)渣和學(xué)霸。大模型排行榜哪家強(qiáng)?還看LLM競(jìng)技場(chǎng)~
截至此刻,已有共計(jì)90名LLM加入戰(zhàn)斗,用戶總投票數(shù)超過(guò)了77萬(wàn)。
然而,在網(wǎng)友們吃瓜調(diào)侃新模型沖榜、老模型喪失尊嚴(yán)的同時(shí),
人家競(jìng)技場(chǎng)背后的組織LMSYS,已經(jīng)悄悄完成了成果轉(zhuǎn)化:從實(shí)戰(zhàn)中誕生的最有說(shuō)服力的基準(zhǔn)測(cè)試——Arena-Hard。
而Arena-Hard所展現(xiàn)出的四項(xiàng)優(yōu)勢(shì),也正是當(dāng)前的LLM基準(zhǔn)測(cè)試最需要的:
-可分離性(87.4%)明顯優(yōu)于MT-bench(22.6%);
-與Chatbot Arena的排名最相近,達(dá)到89.1%;
-運(yùn)行速度快,價(jià)格便宜(25美元)
-頻繁更新實(shí)時(shí)數(shù)據(jù)
中譯中一下就是,首先這個(gè)大模型的考試要有區(qū)分度,不能讓學(xué)渣也考到90分;
其次,考試的題目應(yīng)該更貼合實(shí)際,并且打分的時(shí)候要嚴(yán)格對(duì)齊人類(lèi)偏好;
最后一定不能泄題,所以測(cè)試數(shù)據(jù)要經(jīng)常更新,保證考試的公平;
——后兩項(xiàng)要求對(duì)于LLM競(jìng)技場(chǎng)來(lái)說(shuō),簡(jiǎn)直像是量身定做。
我們來(lái)看一下新基準(zhǔn)測(cè)試的效果:
上圖中將A
原文鏈接:眾包新玩法!LLM競(jìng)技場(chǎng)誕生基準(zhǔn)測(cè)試,嚴(yán)格分離學(xué)渣學(xué)霸
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。