LLM排行榜更新！谷歌Bard超過GPT-4，中國玩家未進前十

AIGC動態2年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：LLM排行榜更新！谷歌Bard超過GPT-4，中國玩家未進前十
關鍵字：模型,下圖,科學家,用戶,平局
文章來源：夕小瑤科技說
內容字數：2383字

內容摘要：

?夕小瑤科技說原創作者 | 王二狗大家好我是二狗。
今天谷歌Bard的排名在Imsys的LLMs 排位賽上超過了GPT-4,直接躍居第二名（但沒有超過OpenAI最新的 GPT-4 Turbo模型）:
遇到這好事，谷歌首席科學家 Jeff Dean 當然是第一時間前來“炫耀”，并給自家的 Gemini Pro模型帶貨。
排行榜介紹這個LLMs 排行榜（Chatbot Arena基準平臺）是由 UC伯克利研究人員主導的LMSYS (Large Model Systems Organization)組織發起的。通過在LLMs 間進行隨機匿名的 1V1 battle 方式，并基于 Elo 評級系統得出排名。
如下圖所示，你可以隨便問一個問題，左側是模型A的回答，右側是模型B的回答。然后你可以給這兩個模型的回答打分，一共有四個選項「A更好；B更好；A和B一樣好；A和B一樣差」，如果一輪判斷不出來，你可以繼續，直到選出你認為更好的，但如果在過程中暴露了大模型的身份，則投票將不被計算在內。
下圖顯示了模型A在對戰模型B時獲勝幾率（不包含平局）的比例分布圖：
下圖顯示了每種模型組合的

原文鏈接：LLM排行榜更新！谷歌Bard超過GPT-4，中國玩家未進前十