AI模型排名

LiveBench是一個(gè)專(zhuān)為大型語(yǔ)言模型(LLMs)設(shè)計(jì)的基準(zhǔn)測(cè)試平臺(tái),旨在解決測(cè)試集污染和客觀(guān)評(píng)估的問(wèn)題。該平臺(tái)通過(guò)提供一個(gè)公正、無(wú)污染的環(huán)境來(lái)評(píng)估模型性能,支持用戶(hù)通過(guò)GitHub問(wèn)題或電子郵件方式提交模型進(jìn)行評(píng)測(cè)。LiveBench涵蓋了多個(gè)維度的評(píng)估指標(biāo),包括全球平均分、推理平均分、編碼平均分、數(shù)學(xué)平均分、數(shù)據(jù)分析平均分、語(yǔ)言平均分和綜合因子平均分,為模型開(kāi)發(fā)者提供了一個(gè)全面評(píng)估其模型能力的工具,LiveBench大語(yǔ)言模型基準(zhǔn)測(cè)試平臺(tái)官網(wǎng)入口網(wǎng)址

LMSYS Org,由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校和卡內(nèi)基梅隆大學(xué)合作創(chuàng)立的研究組織。該機(jī)構(gòu)推出 Chatbot Arena,是一個(gè)針對(duì)大型語(yǔ)言模型(LLM) 的基準(zhǔn)平臺(tái),以眾包方式匿名、隨機(jī)對(duì)抗測(cè)評(píng)大模型產(chǎn)品,其評(píng)級(jí)基于國(guó)際象棋等競(jìng)技游戲中廣泛使用的 Elo 評(píng)分系統(tǒng)。評(píng)分結(jié)果通過(guò)用戶(hù)投票產(chǎn)生,系統(tǒng)每次會(huì)隨機(jī)選擇兩個(gè)不同的大模型機(jī)器人和用戶(hù)聊天,并讓用戶(hù)在匿名的情況下選擇哪款大模型產(chǎn)品的表現(xiàn)更好一些,整體而言相對(duì)公正,LMSYS-AI大模型競(jìng)技場(chǎng)-排行榜官網(wǎng)入口網(wǎng)址

OpenCompss是一個(gè)面向大模型的開(kāi)源方和使用者, 提供開(kāi)源、高效、全面的大模型評(píng)測(cè)開(kāi)放平臺(tái)。網(wǎng)站包含大模型評(píng)測(cè)榜單,數(shù)據(jù)集社區(qū),文檔等專(zhuān)區(qū)。榜單專(zhuān)區(qū)包含大語(yǔ)言模型以及多模態(tài)大模型榜單,提供多能力維度的評(píng)分參考。數(shù)據(jù)集社區(qū)致力于打造創(chuàng)新性的基準(zhǔn)測(cè)試資源專(zhuān)區(qū),提供豐富的評(píng)測(cè)數(shù)據(jù)集信息。其中,Compass Arena 致力于一個(gè)完全基于用戶(hù)真實(shí)反饋的公正、開(kāi)放、透明的榜單。用戶(hù)根據(jù)與大模型的真實(shí)對(duì)話(huà)體驗(yàn)進(jìn)行投票,經(jīng)過(guò)數(shù)據(jù)清洗和過(guò)濾后,我們利用Bradley-Terry模型估計(jì)了模型的競(jìng)技場(chǎng)Elo等級(jí)分?jǐn)?shù),并使用該分?jǐn)?shù)對(duì)大模型進(jìn)行排名,OpenCompass司南-AI大模型競(jìng)技場(chǎng)-排行榜官網(wǎng)入口網(wǎng)址

瑯琊榜,由SuperCLUE團(tuán)隊(duì)開(kāi)發(fā),是一個(gè)專(zhuān)門(mén)針對(duì)中文大模型的匿名對(duì)戰(zhàn)競(jìng)技場(chǎng)。該平臺(tái)采用匿名、公平的對(duì)決形式,通過(guò)用戶(hù)投票來(lái)評(píng)估模型的表現(xiàn),并最終生成一個(gè)中文大模型排行榜。SuperCLUE官方表示,搭建瑯琊榜旨在為中文通用大模型提供一個(gè)公平、公正、開(kāi)放的對(duì)抗競(jìng)技平臺(tái),瑯琊榜-中文AI大模型競(jìng)技場(chǎng)-排行榜官網(wǎng)入口網(wǎng)址