MMBench
MMBench官網(wǎng)入口網(wǎng)址,MMBench是一個(gè)多模態(tài)基準(zhǔn)測(cè)試,該體系開發(fā)了一個(gè)綜合評(píng)估流程,從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估,覆蓋20項(xiàng)細(xì)粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道...
標(biāo)簽:AI模型評(píng)測(cè)AI模型評(píng)測(cè)MMBench官網(wǎng)
MMBench是一個(gè)多模態(tài)基準(zhǔn)測(cè)試,該體系開發(fā)了一個(gè)綜合評(píng)估流程,從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估,覆蓋20項(xiàng)細(xì)粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評(píng)測(cè),循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性,基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。
網(wǎng)站服務(wù):MMBench,AI工具集導(dǎo)航。
MMBench是一個(gè)多模態(tài)基準(zhǔn)測(cè)試,由上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)、香港中文大學(xué)、新加坡國(guó)立大學(xué)和浙江大學(xué)的研究人員推出。該體系開發(fā)了一個(gè)綜合評(píng)估流程,從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估,覆蓋20項(xiàng)細(xì)粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評(píng)測(cè),循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性,基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。
MMBench的特點(diǎn)和優(yōu)勢(shì)
- 基于感知與推理,將評(píng)估維度逐級(jí)細(xì)分。約 3000 道單項(xiàng)選擇題,覆蓋目標(biāo)檢測(cè)、文字識(shí)別、動(dòng)作識(shí)別、圖像
理解、關(guān)系推理等 20 個(gè)細(xì)粒度評(píng)估維度 - 更具魯棒性的評(píng)估方式。相同單選問題循環(huán)選項(xiàng)提問,模型輸出全部指向同一答案認(rèn)定為通過,相比傳統(tǒng)1次性通過評(píng)估 top-1 準(zhǔn)確率平均下降 10% ~ 20%。最大程度減少各種噪聲因素對(duì)評(píng)測(cè)結(jié)果的影響,保證了結(jié)果的可復(fù)現(xiàn)性。
- 更可靠的模型輸出提取方法。基于 ChatGPT 匹配模型輸出與選項(xiàng),即使模型未按照指令輸出也可準(zhǔn)確匹配至最合理選項(xiàng)
MMBench網(wǎng)址入口
https://mmbench.opencompass.org.cn/leaderboard
OpenI小編發(fā)現(xiàn)MMBench網(wǎng)站非常受用戶歡迎,請(qǐng)?jiān)L問MMBench網(wǎng)址入口試用。
數(shù)據(jù)評(píng)估
本站OpenI提供的MMBench都來源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2023年 11月 10日 上午6:01收錄時(shí),該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。
相關(guān)導(dǎo)航

LLMEval3官網(wǎng)入口網(wǎng)址,LLMEval是由復(fù)旦大學(xué)NLP實(shí)驗(yàn)室推出的大模型評(píng)測(cè)基準(zhǔn),最新的LLMEval-3聚焦于專業(yè)知識(shí)能力評(píng)測(cè),涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個(gè)學(xué)科門類、50余個(gè)二級(jí)學(xué)科,共計(jì)約20W道標(biāo)準(zhǔn)生成式問答題目。