AI模型排名

LMSYS-AI大模型競技場-排行榜
LMSYS Org,由加州大學伯克利分校、加州大學圣地亞哥分校和卡內(nèi)基梅隆大學合作創(chuàng)立的研究組織。該機構推出 Chatbot Arena,是一個針對大型語言模型(LLM) 的基準平臺,以眾包方式匿名、隨機對抗測評大模型產(chǎn)品,其評級基于國際象棋等競技游戲中廣泛使用的 Elo 評分系統(tǒng)。評分結果通過用戶投票產(chǎn)生,系統(tǒng)每次會隨機選擇兩個不同的大模型機器人和用戶聊天,并讓用戶在匿名的情況下選擇哪款大模型產(chǎn)品的表現(xiàn)更好一些,整體而言相對公正,LMSYS-AI大模型競技場-排行榜官網(wǎng)入口網(wǎng)址

OpenCompass司南-AI大模型競技場-排行榜
OpenCompss是一個面向大模型的開源方和使用者, 提供開源、高效、全面的大模型評測開放平臺。網(wǎng)站包含大模型評測榜單,數(shù)據(jù)集社區(qū),文檔等專區(qū)。榜單專區(qū)包含大語言模型以及多模態(tài)大模型榜單,提供多能力維度的評分參考。數(shù)據(jù)集社區(qū)致力于打造創(chuàng)新性的基準測試資源專區(qū),提供豐富的評測數(shù)據(jù)集信息。其中,Compass Arena 致力于一個完全基于用戶真實反饋的公正、開放、透明的榜單。用戶根據(jù)與大模型的真實對話體驗進行投票,經(jīng)過數(shù)據(jù)清洗和過濾后,我們利用Bradley-Terry模型估計了模型的競技場Elo等級分數(shù),并使用該分數(shù)對大模型進行排名,OpenCompass司南-AI大模型競技場-排行榜官網(wǎng)入口網(wǎng)址