Open LLM Leaderboard官網
Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語言模型評估框架)封裝。
網站服務:Open LLM Leaderboard,AI工具集導航。
Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語言模型評估框架)封裝。
由于社區在發布了大量的大型語言模型(LLM)和機器人之后,往往伴隨著對其性能的夸大宣傳,很難過濾出開源社區取得的真正進展以及目前的最先進模型。因此,Hugging Face 使用 Eleuther AI語言模型評估框架對模型進行四個關鍵基準測試評估。這是一個統一的框架,用于在大量不同的評估任務上測試生成式語言模型。
Open LLM Leaderboard 的評估基準
- AI2 推理挑戰(25-shot):一組小學科學問題
- HellaSwag(10-shot):一個測試常識推理的任務,對人類來說很容易(大約95%),但對SOTA模型來說具有挑戰性。
- MMLU(5-shot)- 用于測量文本模型的多任務準確性。測試涵蓋57個任務,包括基本數學、美國歷史、計算機科學、法律等等。
- TruthfulQA(0-shot)- 用于測量模型復制在在線常見虛假信息中的傾向性。
Open LLM Leaderboard網址入口
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
OpenI小編發現Open LLM Leaderboard網站非常受用戶歡迎,請訪問Open LLM Leaderboard網址入口試用。
數據評估
本站OpenI提供的Open LLM Leaderboard都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 11月 10日 上午6:00收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。
相關導航
