Chatbot Arena 也被成為機器人競技場,它是由LMSYS Org 創建的一個 大語言模型(LLM)對比競技平臺,通過對比后并將這個大語言模型(LLM)進行排名。最新一期大語言模型(LLM)排行榜出爐,GPT4 依舊是獨領,排在第二位的是 Claude-v1 模型,GPT 3.5 turbo 排名第四。
目前該平臺通過三種評分機制,來對比哪個機器人實力最強。這三個機制分別是Arena Elo rating 、MT-bench 、MMLU 其中第一個Arena Elo rating 評分系統類似于王者榮耀中的elo匹配機制,它把各家的機器人當做玩家,讓他們之間隨機對戰,通過4萬多名用戶投票來進行elo評級。
- Chatbot Arena?– 一個眾包、隨機的戰斗平臺。我們使用 40K+ 用戶投票來計算 Elo 評級。
- MT-Bench?– 一組具有挑戰性的多回合問題。我們使用 GPT-4 對模型響應進行評分。
- MMLU(5-shot)——衡量模型在 57 項任務上的多任務準確性的測試。
數據評估
關于Chatbot Arena特別聲明
本站OpenI提供的Chatbot Arena都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 6月 27日 上午2:25收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。
相關導航
暫無評論...



粵公網安備 44011502001135號