上交舉辦“大模型奧林匹克競(jìng)賽”,GPT-4o僅得39分

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:上交舉辦“大模型奧林匹克競(jìng)賽”,GPT-4o僅得39分
關(guān)鍵字:模型,基準(zhǔn),能力,認(rèn)知,問(wèn)題
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年大模型的奧林匹克競(jìng)賽來(lái)了!
最近,上交構(gòu)建了一個(gè)全面、極具挑戰(zhàn)性的奧賽級(jí)別的基準(zhǔn)——OlympicArena,從來(lái)自62個(gè)不同奧林匹克競(jìng)賽中篩選出11,163個(gè)問(wèn)題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、地理、天文學(xué)和計(jì)算機(jī)科學(xué)等七個(gè)學(xué)科,細(xì)分為34個(gè)專(zhuān)業(yè)領(lǐng)域。除了8類(lèi)邏輯推理任務(wù)外,還有5類(lèi)視覺(jué)推理能力,分為13種答案類(lèi)型(如表達(dá)式、區(qū)間)。
論文標(biāo)題:OlympicArena: Benchmarking Multi-discipline
Cognitive Reasoning for Superintelligent AI
論文鏈接:https://arxiv.org/pdf/2406.12753
奧林匹克競(jìng)賽,作為選拔拔尖青少年人才的競(jìng)賽,其難度與挑戰(zhàn)性不言而喻。在奧賽中獲得優(yōu)異成績(jī)的同學(xué)可以獲得保送名牌大學(xué)和參加自主招生考試的資格。
那么大模型在奧賽中的表現(xiàn)如何呢?
作者提供了一套全面的資源來(lái)支持AI研究,包括基準(zhǔn)數(shù)據(jù)集、開(kāi)源標(biāo)注平臺(tái)、詳細(xì)的評(píng)估工具和帶有自動(dòng)提交功能的排行榜:
https://github.com/GAIR-NLP/OlympicAre
原文鏈接:上交舉辦“大模型奧林匹克競(jìng)賽”,GPT-4o僅得39分
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專(zhuān)業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)