Open LLM Leaderboard
Open LLM Leaderboard官網(wǎng)入口網(wǎng)址,Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harn...
標(biāo)簽:AI模型評(píng)測(cè)AI模型評(píng)測(cè)Open LLM Leaderboard官網(wǎng)
Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語(yǔ)言模型評(píng)估框架)封裝。
網(wǎng)站服務(wù):Open LLM Leaderboard,AI工具集導(dǎo)航。
Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語(yǔ)言模型評(píng)估框架)封裝。
由于社區(qū)在發(fā)布了大量的大型語(yǔ)言模型(LLM)和機(jī)器人之后,往往伴隨著對(duì)其性能的夸大宣傳,很難過(guò)濾出開(kāi)源社區(qū)取得的真正進(jìn)展以及目前的最先進(jìn)模型。因此,Hugging Face 使用 Eleuther AI語(yǔ)言模型評(píng)估框架對(duì)模型進(jìn)行四個(gè)關(guān)鍵基準(zhǔn)測(cè)試評(píng)估。這是一個(gè)統(tǒng)一的框架,用于在大量不同的評(píng)估任務(wù)上測(cè)試生成式語(yǔ)言模型。
Open LLM Leaderboard 的評(píng)估基準(zhǔn)
- AI2 推理挑戰(zhàn)(25-shot):一組小學(xué)科學(xué)問(wèn)題
- HellaSwag(10-shot):一個(gè)測(cè)試常識(shí)推理的任務(wù),對(duì)人類(lèi)來(lái)說(shuō)很容易(大約95%),但對(duì)SOTA模型來(lái)說(shuō)具有挑戰(zhàn)性。
- MMLU(5-shot)- 用于測(cè)量文本模型的多任務(wù)準(zhǔn)確性。測(cè)試涵蓋57個(gè)任務(wù),包括基本數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等等。
- TruthfulQA(0-shot)- 用于測(cè)量模型復(fù)制在在線常見(jiàn)虛假信息中的傾向性。
Open LLM Leaderboard網(wǎng)址入口
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

OpenI小編發(fā)現(xiàn)Open LLM Leaderboard網(wǎng)站非常受用戶(hù)歡迎,請(qǐng)?jiān)L問(wèn)Open LLM Leaderboard網(wǎng)址入口試用。
數(shù)據(jù)評(píng)估
本站OpenI提供的Open LLM Leaderboard都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2023年 11月 10日 上午6:00收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。
相關(guān)導(dǎo)航
AGI-Eval官網(wǎng)入口網(wǎng)址,AGI-Eval是上海交通大學(xué)、同濟(jì)大學(xué)、華東師范大學(xué)、DataWhale等高校和機(jī)構(gòu)合作發(fā)布的大模型評(píng)測(cè)社區(qū),旨在打造公正、可信、科學(xué)、全面的評(píng)測(cè)生態(tài),以“評(píng)測(cè)助力,讓AI成為人類(lèi)更好的伙伴”為使命。專(zhuān)門(mén)設(shè)計(jì)用于評(píng)估基礎(chǔ)模型在人類(lèi)認(rèn)知和問(wèn)題解決相關(guān)任務(wù)中的一般能力。
LLMEval3官網(wǎng)入口網(wǎng)址,LLMEval是由復(fù)旦大學(xué)NLP實(shí)驗(yàn)室推出的大模型評(píng)測(cè)基準(zhǔn),最新的LLMEval-3聚焦于專(zhuān)業(yè)知識(shí)能力評(píng)測(cè),涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個(gè)學(xué)科門(mén)類(lèi)、50余個(gè)二級(jí)學(xué)科,共計(jì)約20W道標(biāo)準(zhǔn)生成式問(wèn)答題目。
MMBench官網(wǎng)入口網(wǎng)址,MMBench是一個(gè)多模態(tài)基準(zhǔn)測(cè)試,該體系開(kāi)發(fā)了一個(gè)綜合評(píng)估流程,從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估,覆蓋20項(xiàng)細(xì)粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問(wèn)一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評(píng)測(cè),循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性,基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。


粵公網(wǎng)安備 44011502001135號(hào)