LLM排行榜更新!谷歌Bard超過GPT-4,中國玩家未進(jìn)前十
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLM排行榜更新!谷歌Bard超過GPT-4,中國玩家未進(jìn)前十
關(guān)鍵字:模型,下圖,科學(xué)家,用戶,平局
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):2383字
內(nèi)容摘要:
?夕小瑤科技說 原創(chuàng)作者 | 王二狗大家好我是二狗。
今天谷歌Bard的排名在Imsys的LLMs 排位賽上超過了GPT-4,直接躍居第二名(但沒有超過OpenAI最新的 GPT-4 Turbo模型):
遇到這好事,谷歌首席科學(xué)家 Jeff Dean 當(dāng)然是第一時間前來“炫耀”,并給自家的 Gemini Pro模型帶貨。
排行榜介紹這個LLMs 排行榜(Chatbot Arena基準(zhǔn)平臺)是由 UC伯克利研究人員主導(dǎo)的LMSYS (Large Model Systems Organization)組織發(fā)起的。通過在LLMs 間進(jìn)行隨機(jī)匿名的 1V1 battle 方式,并基于 Elo 評級系統(tǒng)得出排名。
如下圖所示,你可以隨便問一個問題,左側(cè)是模型A的回答,右側(cè)是模型B的回答。然后你可以給這兩個模型的回答打分,一共有四個選項(xiàng)「A更好;B更好;A和B一樣好;A和B一樣差」,如果一輪判斷不出來,你可以繼續(xù),直到選出你認(rèn)為更好的,但如果在過程中暴露了大模型的身份,則投票將不被計(jì)算在內(nèi)。
下圖顯示了模型A在對戰(zhàn)模型B時獲勝幾率(不包含平局 )的比例分布圖:
下圖顯示了每種模型組合的
原文鏈接:LLM排行榜更新!谷歌Bard超過GPT-4,中國玩家未進(jìn)前十
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。