最強推理模型o1-mini也會下降3成6
研究團隊對大型模型數學推理能力的深入分析
根據上海AI實驗室司南OpenCompass團隊的研究,當前大型模型在數學推理方面的表現存在顯著差距,尤其是在多次采樣時的穩定性不足。盡管新模型在MATH等數學競賽中表現出色,實際使用時卻表現不佳。為此,團隊推出了新的復雜數學評測集LiveMathBench,結合全新的性能指標G-Pass@16??,以更全面地評估模型的性能潛力和穩定性。
1. 新評價指標G-Pass@k的提出
研究團隊重新思考了傳統的評測指標,如Pass@k和Best-of-N,發現這些指標主要關注模型的性能潛力,而忽略了穩定性。G-Pass@k通過引入閾值??,衡量模型在多次生成中至少給出一定次數正確答案的概率,能夠更好地反映模型的實際表現。
2. LiveMathBench數據集的構建
團隊構建了LiveMathBench數據集,以減少數據污染的可能性。該數據集包含238道題目,覆蓋不同難度,旨在持續觀測大型模型的真實數學水平。實驗結果顯示,大部分模型在G-Pass@16??指標上表現不佳,甚至最強模型o1-mini的性能也顯著下降。
3. 模型性能的觀察與分析
研究發現,閉源和開源模型在復雜推理任務上均無法穩定地表現出色。即使是表現較好的模型,在G-Pass@K評估中,性能也出現了明顯下降。此外,增大模型規模并未顯著提升推理能力,說明簡單擴展參數并不能解決模型在推理和上下文理解上的不足。
4. 性能潛力與實際表現的差距
研究還揭示了理論最大能力與實際表現之間的巨大差距。雖然一些模型在單次推理中表現優秀,但在多次重復采樣中卻難以保持穩定,顯示出推理穩定性和一致性不足的問題。這一發現強調了在高可靠性要求的應用中,需要平衡模型的性能和輸出穩定性。
總結
本研究通過引入G-Pass@16??指標和LiveMathBench數據集,深入分析了當前大型模型的數學推理能力。實驗結果表明,當前模型在推理穩定性上仍有待提高,未來需要在魯棒性研究上持續探索與推進。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破