上海AI Lab重塑大模型挑戰(zhàn)，重新定義GPT-4o數(shù)學(xué)能力！

最強(qiáng)推理模型o1-mini也會(huì)下降3成6

原標(biāo)題：GPT-4o數(shù)學(xué)能力跑分直掉50%，上海AI Lab開(kāi)始給大模型重新出題了
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：7405字

研究團(tuán)隊(duì)對(duì)大型模型數(shù)學(xué)推理能力的深入分析

根據(jù)上海AI實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)的研究，當(dāng)前大型模型在數(shù)學(xué)推理方面的表現(xiàn)存在顯著差距，尤其是在多次采樣時(shí)的穩(wěn)定性不足。盡管新模型在MATH等數(shù)學(xué)競(jìng)賽中表現(xiàn)出色，實(shí)際使用時(shí)卻表現(xiàn)不佳。為此，團(tuán)隊(duì)推出了新的復(fù)雜數(shù)學(xué)評(píng)測(cè)集LiveMathBench，結(jié)合全新的性能指標(biāo)G-Pass@16?，以更全面地評(píng)估模型的性能潛力和穩(wěn)定性。

1. 新評(píng)價(jià)指標(biāo)G-Pass@k的提出

研究團(tuán)隊(duì)重新思考了傳統(tǒng)的評(píng)測(cè)指標(biāo)，如Pass@k和Best-of-N，發(fā)現(xiàn)這些指標(biāo)主要關(guān)注模型的性能潛力，而忽略了穩(wěn)定性。G-Pass@k通過(guò)引入閾值?，衡量模型在多次生成中至少給出一定次數(shù)正確答案的概率，能夠更好地反映模型的實(shí)際表現(xiàn)。

2. LiveMathBench數(shù)據(jù)集的構(gòu)建

團(tuán)隊(duì)構(gòu)建了LiveMathBench數(shù)據(jù)集，以減少數(shù)據(jù)污染的可能性。該數(shù)據(jù)集包含238道題目，覆蓋不同難度，旨在持續(xù)觀測(cè)大型模型的真實(shí)數(shù)學(xué)水平。實(shí)驗(yàn)結(jié)果顯示，大部分模型在G-Pass@16?指標(biāo)上表現(xiàn)不佳，甚至最強(qiáng)模型o1-mini的性能也顯著下降。

3. 模型性能的觀察與分析

研究發(fā)現(xiàn)，閉源和開(kāi)源模型在復(fù)雜推理任務(wù)上均無(wú)法穩(wěn)定地表現(xiàn)出色。即使是表現(xiàn)較好的模型，在G-Pass@K評(píng)估中，性能也出現(xiàn)了明顯下降。此外，增大模型規(guī)模并未顯著提升推理能力，說(shuō)明簡(jiǎn)單擴(kuò)展參數(shù)并不能解決模型在推理和上下文理解上的不足。

4. 性能潛力與實(shí)際表現(xiàn)的差距

研究還揭示了理論最大能力與實(shí)際表現(xiàn)之間的巨大差距。雖然一些模型在單次推理中表現(xiàn)優(yōu)秀，但在多次重復(fù)采樣中卻難以保持穩(wěn)定，顯示出推理穩(wěn)定性和一致性不足的問(wèn)題。這一發(fā)現(xiàn)強(qiáng)調(diào)了在高可靠性要求的應(yīng)用中，需要平衡模型的性能和輸出穩(wěn)定性。

總結(jié)

本研究通過(guò)引入G-Pass@16?指標(biāo)和LiveMathBench數(shù)據(jù)集，深入分析了當(dāng)前大型模型的數(shù)學(xué)推理能力。實(shí)驗(yàn)結(jié)果表明，當(dāng)前模型在推理穩(wěn)定性上仍有待提高，未來(lái)需要在魯棒性研究上持續(xù)探索與推進(jìn)。

聯(lián)系作者

文章來(lái)源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# AILab # 人工智能 # 大模型 # 數(shù)學(xué)能力 # 題目重新出題

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

上海AI Lab重塑大模型挑戰(zhàn)，重新定義GPT-4o數(shù)學(xué)能力！

最強(qiáng)推理模型o1-mini也會(huì)下降3成6

研究團(tuán)隊(duì)對(duì)大型模型數(shù)學(xué)推理能力的深入分析

1. 新評(píng)價(jià)指標(biāo)G-Pass@k的提出

2. LiveMathBench數(shù)據(jù)集的構(gòu)建

3. 模型性能的觀察與分析

4. 性能潛力與實(shí)際表現(xiàn)的差距

總結(jié)

聯(lián)系作者

思必馳俞凱：分布式大模型智能體系統(tǒng)是 AGI 時(shí)代一道別樣的風(fēng)景

華為全家桶升級(jí)為純血鴻蒙：揭示它背后的強(qiáng)大秘密！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？