上海AI Lab重塑大模型挑戰(zhàn),重新定義GPT-4o數(shù)學(xué)能力!
最強(qiáng)推理模型o1-mini也會(huì)下降3成6
原標(biāo)題:GPT-4o數(shù)學(xué)能力跑分直掉50%,上海AI Lab開(kāi)始給大模型重新出題了
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):7405字
研究團(tuán)隊(duì)對(duì)大型模型數(shù)學(xué)推理能力的深入分析
根據(jù)上海AI實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)的研究,當(dāng)前大型模型在數(shù)學(xué)推理方面的表現(xiàn)存在顯著差距,尤其是在多次采樣時(shí)的穩(wěn)定性不足。盡管新模型在MATH等數(shù)學(xué)競(jìng)賽中表現(xiàn)出色,實(shí)際使用時(shí)卻表現(xiàn)不佳。為此,團(tuán)隊(duì)推出了新的復(fù)雜數(shù)學(xué)評(píng)測(cè)集LiveMathBench,結(jié)合全新的性能指標(biāo)G-Pass@16?,以更全面地評(píng)估模型的性能潛力和穩(wěn)定性。
1. 新評(píng)價(jià)指標(biāo)G-Pass@k的提出
研究團(tuán)隊(duì)重新思考了傳統(tǒng)的評(píng)測(cè)指標(biāo),如Pass@k和Best-of-N,發(fā)現(xiàn)這些指標(biāo)主要關(guān)注模型的性能潛力,而忽略了穩(wěn)定性。G-Pass@k通過(guò)引入閾值?,衡量模型在多次生成中至少給出一定次數(shù)正確答案的概率,能夠更好地反映模型的實(shí)際表現(xiàn)。
2. LiveMathBench數(shù)據(jù)集的構(gòu)建
團(tuán)隊(duì)構(gòu)建了LiveMathBench數(shù)據(jù)集,以減少數(shù)據(jù)污染的可能性。該數(shù)據(jù)集包含238道題目,覆蓋不同難度,旨在持續(xù)觀測(cè)大型模型的真實(shí)數(shù)學(xué)水平。實(shí)驗(yàn)結(jié)果顯示,大部分模型在G-Pass@16?指標(biāo)上表現(xiàn)不佳,甚至最強(qiáng)模型o1-mini的性能也顯著下降。
3. 模型性能的觀察與分析
研究發(fā)現(xiàn),閉源和開(kāi)源模型在復(fù)雜推理任務(wù)上均無(wú)法穩(wěn)定地表現(xiàn)出色。即使是表現(xiàn)較好的模型,在G-Pass@K評(píng)估中,性能也出現(xiàn)了明顯下降。此外,增大模型規(guī)模并未顯著提升推理能力,說(shuō)明簡(jiǎn)單擴(kuò)展參數(shù)并不能解決模型在推理和上下文理解上的不足。
4. 性能潛力與實(shí)際表現(xiàn)的差距
研究還揭示了理論最大能力與實(shí)際表現(xiàn)之間的巨大差距。雖然一些模型在單次推理中表現(xiàn)優(yōu)秀,但在多次重復(fù)采樣中卻難以保持穩(wěn)定,顯示出推理穩(wěn)定性和一致性不足的問(wèn)題。這一發(fā)現(xiàn)強(qiáng)調(diào)了在高可靠性要求的應(yīng)用中,需要平衡模型的性能和輸出穩(wěn)定性。
總結(jié)
本研究通過(guò)引入G-Pass@16?指標(biāo)和LiveMathBench數(shù)據(jù)集,深入分析了當(dāng)前大型模型的數(shù)學(xué)推理能力。實(shí)驗(yàn)結(jié)果表明,當(dāng)前模型在推理穩(wěn)定性上仍有待提高,未來(lái)需要在魯棒性研究上持續(xù)探索與推進(jìn)。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破