Chatbot Arena
Chatbot Arena 聊天機(jī)器人AI排行榜
標(biāo)簽:學(xué)習(xí)交流ai排行榜 Chatbot Arena 學(xué)習(xí)交流 聊天機(jī)器人競(jìng)技場(chǎng)Chatbot Arena 也被成為機(jī)器人競(jìng)技場(chǎng),它是由LMSYS Org 創(chuàng)建的一個(gè) 大語言模型(LLM)對(duì)比競(jìng)技平臺(tái),通過對(duì)比后并將這個(gè)大語言模型(LLM)進(jìn)行排名。最新一期大語言模型(LLM)排行榜出爐,GPT4 依舊是獨(dú)領(lǐng),排在第二位的是 Claude-v1 模型,GPT 3.5 turbo 排名第四。 目前該平臺(tái)通過三種評(píng)分機(jī)制,來對(duì)比哪個(gè)機(jī)器人實(shí)力最強(qiáng)。這三個(gè)機(jī)制分別是Arena Elo rating 、MT-bench 、MMLU 其中第一個(gè)Arena Elo rating 評(píng)分系統(tǒng)類似于王者榮耀中的elo匹配機(jī)制,它把各家的機(jī)器人當(dāng)做玩家,讓他們之間隨機(jī)對(duì)戰(zhàn),通過4萬多名用戶投票來進(jìn)行elo評(píng)級(jí)。
- Chatbot Arena?– 一個(gè)眾包、隨機(jī)的戰(zhàn)斗平臺(tái)。我們使用 40K+ 用戶投票來計(jì)算 Elo 評(píng)級(jí)。
- MT-Bench?– 一組具有挑戰(zhàn)性的多回合問題。我們使用 GPT-4 對(duì)模型響應(yīng)進(jìn)行評(píng)分。
- MMLU(5-shot)——衡量模型在 57 項(xiàng)任務(wù)上的多任務(wù)準(zhǔn)確性的測(cè)試。
數(shù)據(jù)評(píng)估
本站OpenI提供的Chatbot Arena都來源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2023年 6月 27日 上午2:25收錄時(shí),該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。