<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        上海AI Lab重塑大模型挑戰,數學能力評分大幅回落!

        AIGC動態5個月前發布 量子位
        422 0 0

        最強推理模型o1-mini也會下降3成6

        上海AI Lab重塑大模型挑戰,數學能力評分大幅回落!

        原標題:GPT-4o數學能力跑分直掉50%,上海AI Lab開始給大模型重新出題
        文章來源:量子位
        內容字數:7405字

        新模型在數學推理能力評估中的挑戰

        近日,上海人工智能實驗室司南OpenCompass團隊針對大型語言模型在數學推理能力上的表現,推出了全新的復雜數學評測集LiveMathBench,并引入了G-Pass@16??這一新評估指標。研究發現,盡管許多模型在傳統評測中表現良好,但在真實使用場景下,其數學推理能力卻大幅下降。

        1. G-Pass@k指標的創新

        傳統的Pass@k指標主要關注模型在多次生成中至少給出一次正確答案的概率,而未能充分考慮模型的穩定性。為此,研究團隊提出了Generalized Pass@k(G-Pass@k??),通過引入閾值??,來同時評估模型的性能潛力和穩定性。G-Pass@k??在不同??值下,能夠反映模型的真實掌握程度,尤其是在處理復雜推理任務時。

        2. LiveMathBench的構建

        LiveMathBench包含238道題目,涵蓋中國數學奧林匹克、高考模擬題及美國數學競賽等,旨在降低數據污染的風險。通過對多種模型進行評測,研究團隊希望能持續觀察其在數學推理上的真實表現。

        3. 評測結果與發現

        實驗結果顯示,絕大多數模型在G-Pass@16??上的得分均未超過30分,且在高難度題目上表現明顯不佳。即便是表現相對較好的o1-mini模型,其得分也僅為42分,且整體性能下降顯著。此外,研究表明,增大模型規模并未必能提升推理能力,且模型在保持一致性和穩定性方面仍存在挑戰。

        4. 結論與未來展望

        本研究深入探討了當前大型模型在數學推理能力上的不足,強調了在高可靠性應用中,提升模型的魯棒性與穩定性的重要性。研究團隊期待學術界及工業界在推理能力的魯棒性上持續探索與創新,以更好地滿足實際應用需求。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品美女网站| 亚洲av无码无在线观看红杏| 亚洲网址在线观看你懂的| 国产无限免费观看黄网站| 亚洲国产精品碰碰| 特级毛片aaaa免费观看| 亚洲精品无码av天堂| 国产精品内射视频免费| 亚洲精品无码专区在线播放| 中国一级特黄的片子免费 | 亚洲日韩一区二区三区| 成人免费一级毛片在线播放视频| 亚洲天堂一区二区三区| 女人张腿给男人桶视频免费版| 亚洲天然素人无码专区| 国产老女人精品免费视频| 美女被免费网站在线视频免费| 免费在线观看的黄色网址| 香蕉免费看一区二区三区| 久久亚洲免费视频| 成人免费大片免费观看网站| 亚洲欧美成人av在线观看| 亚洲精品天堂成人片?V在线播放 | 免费在线看黄网站| 亚洲无砖砖区免费| 国产免费人视频在线观看免费| h片在线播放免费高清| 亚洲成人午夜在线| 四虎成人免费网址在线| kk4kk免费视频毛片| 亚洲一区二区影院| 成人片黄网站色大片免费| 国产福利免费视频| 亚洲国产一区在线观看| 国产传媒在线观看视频免费观看| 久久久久久久久久免免费精品 | 一级毛片**不卡免费播| 亚洲日韩一中文字暮| 国产成人亚洲综合无码精品| 在线看片韩国免费人成视频| 免费无码午夜福利片69|