LiveBench大語言模型基準(zhǔn)測(cè)試平臺(tái)

LiveBench大語言模型基準(zhǔn)測(cè)試平臺(tái)
LiveBench是一個(gè)專為大型語言模型(LLMs)設(shè)計(jì)的基準(zhǔn)測(cè)試平臺(tái),旨在解決測(cè)試集污染和客觀評(píng)估的問題。該平臺(tái)通過提供一個(gè)公正、無污染的環(huán)境來評(píng)估模型性能,支持用戶通過GitHub問題或電子郵件方式提交模型進(jìn)行評(píng)測(cè)。LiveBench涵蓋了多個(gè)維度的評(píng)估指標(biāo),包括全球平均分、推理平均分、編碼平均分、數(shù)學(xué)平均分、數(shù)據(jù)分析平均分、語言平均分和綜合因子平均分,為模型開發(fā)者提供了一個(gè)全面評(píng)估其模型能力的工具,LiveBench大語言模型基準(zhǔn)測(cè)試平臺(tái)官網(wǎng)入口網(wǎng)址