o3-mini數學推理暴打DeepSeek-R1？AIME 2025初賽曝數據集污染大瓜

原標題：o3-mini數學推理暴打DeepSeek-R1？AIME 2025初賽曝數據集污染大瓜
文章來源：新智元
內容字數：3057字

AIME 2025 I 數學競賽：大模型成績引發的質疑

近日，AIME 2025 I 數學競賽的大模型參賽結果引發熱議。o3-mini以78%的準確率奪冠，DeepSeek R1則以65%的準確率位居第四。然而，威斯康星大學麥迪遜分校教授Dimitris Papailiopoulos卻對結果提出質疑，他發現一些參數量僅為1.5B的小模型也能取得50%左右的準確率，這引發了關于數據集污染和模型泛化能力的討論。

令人意外的高分
Papailiopoulos教授對小模型的意外高分感到震驚。他認為，如果題目完全是新題，這些小模型幾乎不可能取得如此高的分數。一個連三位數乘法都難以計算的1.5B參數模型，卻能解答奧數題，這顯得異常不合理。
數據集污染的證據
教授通過OpenAI Deep Research搜索發現，AIME 2025 I競賽中的部分題目，與Quora、math.stackexchange以及2023年佛羅里達在線數學公開賽中的題目高度相似甚至完全相同。這強烈暗示了數據集污染的可能性，模型很可能并非真正理解并解決了問題，而是記住了答案。
MathArena平臺的公平性
MathArena平臺旨在評估大模型解決未見數學問題的推理和泛化能力。它通過標準化評估和多次重復測試來保證結果的公平性，并公開排行榜和詳細數據。然而，此次暴露了即使是精心設計的平臺，也難以完全避免數據集污染的風險。
泛化能力VS記憶能力
此次突顯了LLM“泛化能力VS記憶能力”的爭議。模型究竟是真正理解并解決了問題，還是僅僅記住了答案？這成為一個值得深入探討的問題。Papailiopoulos教授推測，強化學習優化策略GRPO可能在提升模型記憶的同時，也意外地提高了其數學技能。
數據凈化：新的Scaling Law？
引發網友熱議，不少人認為數據凈化才是提升模型能力的關鍵，甚至有人將其稱為“新的Scaling Law”。這反映了數據質量對模型性能至關重要的現實。如何有效地凈化數據，避免數據集污染，成為未來研究的重點。

總而言之，AIME 2025 I競賽的結果引發了對大模型能力和數據集污染的深刻反思。這不僅關系到對模型性能的準確評估，更關乎對人工智能未來發展方向的思考。數據凈化和模型泛化能力的提升，將是未來研究的重點方向。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # AI模型評測公平性 # AI競賽數據集污染 # DeepSeek-R1AIME # 大模型訓練數據質量 # 數學推理能力測試

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

o3-mini數學推理暴打DeepSeek-R1？AIME 2025初賽曝數據集污染大瓜

AIME 2025 I 數學競賽：大模型成績引發的質疑

令人意外的高分

數據集污染的證據

MathArena平臺的公平性

泛化能力VS記憶能力

數據凈化：新的Scaling Law？

聯系作者

房價預測/礦藏勘探/自然災害預測……AI助力地球科學革新，浙大/清華/Google Research等已發表重要成果

體驗蘋果新應用兩天后，我開始期待微信「抄作業」

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

o3-mini數學推理暴打DeepSeek-R1？AIME 2025初賽曝數據集污染大瓜

AIME 2025 I 數學競賽：大模型成績引發的質疑

令人意外的高分

數據集污染的證據

MathArena平臺的公平性

泛化能力VS記憶能力

數據凈化：新的Scaling Law？

聯系作者

房價預測/礦藏勘探/自然災害預測……AI助力地球科學革新，浙大/清華/Google Research等已發表重要成果

體驗蘋果新應用兩天后，我開始期待微信「抄作業」

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

o3-mini數學推理暴打DeepSeek-R1？AIME 2025初賽曝數據集污染大瓜

數據凈化：新的Scaling Law？

房價預測/礦藏勘探/自然災害預測……AI助力地球科學革新，浙大/清華/Google Research等已發表重要成果

體驗蘋果新應用兩天后，我開始期待微信「抄作業」