上海AI Lab重塑大模型挑戰(zhàn),重新定義GPT-4o數(shù)學能力!
最強推理模型o1-mini也會下降3成6
原標題:GPT-4o數(shù)學能力跑分直掉50%,上海AI Lab開始給大模型重新出題了
文章來源:量子位
內(nèi)容字數(shù):7405字
研究團隊對大型模型數(shù)學推理能力的深入分析
根據(jù)上海AI實驗室司南OpenCompass團隊的研究,當前大型模型在數(shù)學推理方面的表現(xiàn)存在顯著差距,尤其是在多次采樣時的穩(wěn)定性不足。盡管新模型在MATH等數(shù)學競賽中表現(xiàn)出色,實際使用時卻表現(xiàn)不佳。為此,團隊推出了新的復(fù)雜數(shù)學評測集LiveMathBench,結(jié)合全新的性能指標G-Pass@16??,以更全面地評估模型的性能潛力和穩(wěn)定性。
1. 新評價指標G-Pass@k的提出
研究團隊重新思考了傳統(tǒng)的評測指標,如Pass@k和Best-of-N,發(fā)現(xiàn)這些指標主要關(guān)注模型的性能潛力,而忽略了穩(wěn)定性。G-Pass@k通過引入閾值??,衡量模型在多次生成中至少給出一定次數(shù)正確答案的概率,能夠更好地反映模型的實際表現(xiàn)。
2. LiveMathBench數(shù)據(jù)集的構(gòu)建
團隊構(gòu)建了LiveMathBench數(shù)據(jù)集,以減少數(shù)據(jù)污染的可能性。該數(shù)據(jù)集包含238道題目,覆蓋不同難度,旨在持續(xù)觀測大型模型的真實數(shù)學水平。實驗結(jié)果顯示,大部分模型在G-Pass@16??指標上表現(xiàn)不佳,甚至最強模型o1-mini的性能也顯著下降。
3. 模型性能的觀察與分析
研究發(fā)現(xiàn),閉源和開源模型在復(fù)雜推理任務(wù)上均無法穩(wěn)定地表現(xiàn)出色。即使是表現(xiàn)較好的模型,在G-Pass@K評估中,性能也出現(xiàn)了明顯下降。此外,增大模型規(guī)模并未顯著提升推理能力,說明簡單擴展參數(shù)并不能解決模型在推理和上下文理解上的不足。
4. 性能潛力與實際表現(xiàn)的差距
研究還揭示了理論最大能力與實際表現(xiàn)之間的巨大差距。雖然一些模型在單次推理中表現(xiàn)優(yōu)秀,但在多次重復(fù)采樣中卻難以保持穩(wěn)定,顯示出推理穩(wěn)定性和一致性不足的問題。這一發(fā)現(xiàn)強調(diào)了在高可靠性要求的應(yīng)用中,需要平衡模型的性能和輸出穩(wěn)定性。
總結(jié)
本研究通過引入G-Pass@16??指標和LiveMathBench數(shù)據(jù)集,深入分析了當前大型模型的數(shù)學推理能力。實驗結(jié)果表明,當前模型在推理穩(wěn)定性上仍有待提高,未來需要在魯棒性研究上持續(xù)探索與推進。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破