<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        o3-mini數學推理暴打DeepSeek-R1?AIME 2025初賽曝數據集污染大瓜

        AIGC動態3個月前發布 新智元
        179 0 0

        o3-mini數學推理暴打DeepSeek-R1?AIME 2025初賽曝數據集污染大瓜

        原標題:o3-mini數學推理暴打DeepSeek-R1?AIME 2025初賽曝數據集污染大瓜
        文章來源:新智元
        內容字數:3057字

        AIME 2025 I 數學競賽:大模型成績引發的質疑

        近日,AIME 2025 I 數學競賽的大模型參賽結果引發熱議。o3-mini以78%的準確率奪冠,DeepSeek R1則以65%的準確率位居第四。然而,威斯康星大學麥迪遜分校教授Dimitris Papailiopoulos卻對結果提出質疑,他發現一些參數量僅為1.5B的小模型也能取得50%左右的準確率,這引發了關于數據集污染和模型泛化能力的討論。

        1. 令人意外的高分

          Papailiopoulos教授對小模型的意外高分感到震驚。他認為,如果題目完全是新題,這些小模型幾乎不可能取得如此高的分數。一個連三位數乘法都難以計算的1.5B參數模型,卻能解答奧數題,這顯得異常不合理。

        2. 數據集污染的證據

          教授通過OpenAI Deep Research搜索發現,AIME 2025 I競賽中的部分題目,與Quora、math.stackexchange以及2023年佛羅里達在線數學公開賽中的題目高度相似甚至完全相同。這強烈暗示了數據集污染的可能性,模型很可能并非真正理解并解決了問題,而是記住了答案。

        3. MathArena平臺的公平性

          MathArena平臺旨在評估大模型解決未見數學問題的推理和泛化能力。它通過標準化評估和多次重復測試來保證結果的公平性,并公開排行榜和詳細數據。然而,此次暴露了即使是精心設計的平臺,也難以完全避免數據集污染的風險。

        4. 泛化能力VS記憶能力

          此次突顯了LLM“泛化能力VS記憶能力”的爭議。模型究竟是真正理解并解決了問題,還是僅僅記住了答案?這成為一個值得深入探討的問題。Papailiopoulos教授推測,強化學習優化策略GRPO可能在提升模型記憶的同時,也意外地提高了其數學技能。

        5. 數據凈化:新的Scaling Law?

          引發網友熱議,不少人認為數據凈化才是提升模型能力的關鍵,甚至有人將其稱為“新的Scaling Law”。 這反映了數據質量對模型性能至關重要的現實。如何有效地凈化數據,避免數據集污染,成為未來研究的重點。

        總而言之,AIME 2025 I競賽的結果引發了對大模型能力和數據集污染的深刻反思。 這不僅關系到對模型性能的準確評估,更關乎對人工智能未來發展方向的思考。 數據凈化和模型泛化能力的提升,將是未來研究的重點方向。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 桃子视频在线观看高清免费视频 | 亚洲AV日韩AV一区二区三曲| 久久精品国产亚洲AV忘忧草18| 亚洲国产精品无码久久九九大片| 91免费播放人人爽人人快乐| 亚洲电影日韩精品| 亚洲春色在线视频| 日本高清免费观看| 久久精品蜜芽亚洲国产AV| 中文字幕视频免费| 亚洲一级免费毛片| 韩国欧洲一级毛片免费 | 亚洲的天堂av无码| 国产精品免费一区二区三区| 久久亚洲精品无码播放| 免费黄网站在线看| 亚洲天堂一区二区三区四区| 白白国产永久免费视频| 欧亚一级毛片免费看| 亚洲乱码国产一区三区| 精品久久久久久亚洲中文字幕| 中文字幕免费视频一| 亚洲熟妇无码av另类vr影视| 国产精品麻豆免费版| 亚洲一级片免费看| 91亚洲国产成人久久精品网站| 免费精品人在线二线三线区别| 亚洲AV日韩AV永久无码绿巨人| 亚洲免费福利在线视频| 国产精品亚洲专区无码唯爱网| 亚洲夜夜欢A∨一区二区三区| 在线91精品亚洲网站精品成人| 久久亚洲中文字幕精品一区| 亚洲免费观看在线视频| 立即播放免费毛片一级| 亚洲va在线va天堂va888www| 宅男666在线永久免费观看| AAAAA级少妇高潮大片免费看| 亚洲国产精品一区二区第四页| 嫩草影院在线播放www免费观看| 亚洲色偷偷色噜噜狠狠99网|