<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        上海AI Lab重塑大模型挑戰,數學能力評分大幅回落!

        AIGC動態9個月前發布 量子位
        464 0 0

        最強推理模型o1-mini也會下降3成6

        上海AI Lab重塑大模型挑戰,數學能力評分大幅回落!

        原標題:GPT-4o數學能力跑分直掉50%,上海AI Lab開始給大模型重新出題
        文章來源:量子位
        內容字數:7405字

        新模型在數學推理能力評估中的挑戰

        近日,上海人工智能實驗室司南OpenCompass團隊針對大型語言模型在數學推理能力上的表現,推出了全新的復雜數學評測集LiveMathBench,并引入了G-Pass@16?這一新評估指標。研究發現,盡管許多模型在傳統評測中表現良好,但在真實使用場景下,其數學推理能力卻大幅下降。

        1. G-Pass@k指標的創新

        傳統的Pass@k指標主要關注模型在多次生成中至少給出一次正確答案的概率,而未能充分考慮模型的穩定性。為此,研究團隊提出了Generalized Pass@k(G-Pass@k?),通過引入閾值?,來同時評估模型的性能潛力和穩定性。G-Pass@k?在不同?值下,能夠反映模型的真實掌握程度,尤其是在處理復雜推理任務時。

        2. LiveMathBench的構建

        LiveMathBench包含238道題目,涵蓋中國數學奧林匹克、高考模擬題及美國數學競賽等,旨在降低數據污染的風險。通過對多種模型進行評測,研究團隊希望能持續觀察其在數學推理上的真實表現。

        3. 評測結果與發現

        實驗結果顯示,絕大多數模型在G-Pass@16?上的得分均未超過30分,且在高難度題目上表現明顯不佳。即便是表現相對較好的o1-mini模型,其得分也僅為42分,且整體性能下降顯著。此外,研究表明,增大模型規模并未必能提升推理能力,且模型在保持一致性和穩定性方面仍存在挑戰。

        4. 結論與未來展望

        本研究深入探討了當前大型模型在數學推理能力上的不足,強調了在高可靠性應用中,提升模型的魯棒性與穩定性的重要性。研究團隊期待學術界及工業界在推理能力的魯棒性上持續探索與創新,以更好地滿足實際應用需求。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 蜜臀亚洲AV无码精品国产午夜.| 国产精品高清视亚洲精品| 亚洲国产精品人人做人人爽| 亚洲人成影院在线无码按摩店| 亚洲一区二区三区在线| 青青免费在线视频| 亚洲视频在线免费播放| 免费一级毛片在线播放| 亚洲第一永久在线观看| 全部在线播放免费毛片| 国产一卡2卡3卡4卡2021免费观看| 亚洲无码日韩精品第一页| 国产成人精品日本亚洲18图| 曰批全过程免费视频在线观看| 欧洲亚洲国产清在高| 久久亚洲精品无码gv| **一级一级毛片免费观看| 亚洲无砖砖区免费| 暖暖日本免费中文字幕| 亚洲伦乱亚洲h视频| 亚洲av成人一区二区三区观看在线| 四虎成人免费观看在线网址| 亚洲欧洲久久精品| 成人免费午间影院在线观看| 亚洲视频在线观看视频| 18禁在线无遮挡免费观看网站| 四虎永久在线精品视频免费观看| 国产成人精品日本亚洲网址 | 毛片免费在线视频| 亚洲精品无码你懂的| 亚洲第一网站免费视频| 亚洲日韩精品国产一区二区三区 | 美女的胸又黄又www网站免费| 亚洲精品国自产拍在线观看| a级片免费在线播放| 狠狠综合久久综合88亚洲| 免费人成网站永久| 亚洲日韩区在线电影| 97久久免费视频| 亚洲免费视频在线观看| 天天看片天天爽_免费播放|