<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        上海AI Lab重塑大模型挑戰(zhàn),重新定義GPT-4o數(shù)學能力!

        AIGC動態(tài)5個月前發(fā)布 量子位
        375 0 0

        最強推理模型o1-mini也會下降3成6

        上海AI Lab重塑大模型挑戰(zhàn),重新定義GPT-4o數(shù)學能力!

        原標題:GPT-4o數(shù)學能力跑分直掉50%,上海AI Lab開始給大模型重新出題了
        文章來源:量子位
        內(nèi)容字數(shù):7405字

        研究團隊對大型模型數(shù)學推理能力的深入分析

        根據(jù)上海AI實驗室司南OpenCompass團隊的研究,當前大型模型在數(shù)學推理方面的表現(xiàn)存在顯著差距,尤其是在多次采樣時的穩(wěn)定性不足。盡管新模型在MATH等數(shù)學競賽中表現(xiàn)出色,實際使用時卻表現(xiàn)不佳。為此,團隊推出了新的復(fù)雜數(shù)學評測集LiveMathBench,結(jié)合全新的性能指標G-Pass@16??,以更全面地評估模型的性能潛力和穩(wěn)定性。

        1. 新評價指標G-Pass@k的提出

        研究團隊重新思考了傳統(tǒng)的評測指標,如Pass@k和Best-of-N,發(fā)現(xiàn)這些指標主要關(guān)注模型的性能潛力,而忽略了穩(wěn)定性。G-Pass@k通過引入閾值??,衡量模型在多次生成中至少給出一定次數(shù)正確答案的概率,能夠更好地反映模型的實際表現(xiàn)。

        2. LiveMathBench數(shù)據(jù)集的構(gòu)建

        團隊構(gòu)建了LiveMathBench數(shù)據(jù)集,以減少數(shù)據(jù)污染的可能性。該數(shù)據(jù)集包含238道題目,覆蓋不同難度,旨在持續(xù)觀測大型模型的真實數(shù)學水平。實驗結(jié)果顯示,大部分模型在G-Pass@16??指標上表現(xiàn)不佳,甚至最強模型o1-mini的性能也顯著下降。

        3. 模型性能的觀察與分析

        研究發(fā)現(xiàn),閉源和開源模型在復(fù)雜推理任務(wù)上均無法穩(wěn)定地表現(xiàn)出色。即使是表現(xiàn)較好的模型,在G-Pass@K評估中,性能也出現(xiàn)了明顯下降。此外,增大模型規(guī)模并未顯著提升推理能力,說明簡單擴展參數(shù)并不能解決模型在推理和上下文理解上的不足。

        4. 性能潛力與實際表現(xiàn)的差距

        研究還揭示了理論最大能力與實際表現(xiàn)之間的巨大差距。雖然一些模型在單次推理中表現(xiàn)優(yōu)秀,但在多次重復(fù)采樣中卻難以保持穩(wěn)定,顯示出推理穩(wěn)定性和一致性不足的問題。這一發(fā)現(xiàn)強調(diào)了在高可靠性要求的應(yīng)用中,需要平衡模型的性能和輸出穩(wěn)定性。

        總結(jié)

        本研究通過引入G-Pass@16??指標和LiveMathBench數(shù)據(jù)集,深入分析了當前大型模型的數(shù)學推理能力。實驗結(jié)果表明,當前模型在推理穩(wěn)定性上仍有待提高,未來需要在魯棒性研究上持續(xù)探索與推進。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 91精品全国免费观看青青| 我的小后妈韩剧在线看免费高清版| 亚洲AV永久青草无码精品| 美女内射无套日韩免费播放| 亚洲av永久无码嘿嘿嘿| 四虎免费影院4hu永久免费| 在线观看黄片免费入口不卡| 亚洲精品国产专区91在线| 国产乱子伦精品免费女| 久久免费视频99| 激情婷婷成人亚洲综合| 日韩va亚洲va欧洲va国产| 在线免费观看污网站| 免费看黄的成人APP| 亚洲精品国产高清在线观看| 国产精一品亚洲二区在线播放| 久久久久国产精品免费免费搜索| 又粗又长又爽又长黄免费视频| 4480yy私人影院亚洲| 免费一级毛片在级播放| 日本免费xxxx| 久久免费国产精品| 亚洲中文字幕乱码AV波多JI| 亚洲AV无码一区二区二三区软件 | 精品国产一区二区三区免费看| 日韩电影免费在线观看网站| 亚洲色大成网站www尤物| 亚洲AV永久无码精品成人| 亚洲?V乱码久久精品蜜桃| 无码区日韩特区永久免费系列| 国产免费人成视频在线播放播 | 亚洲成人一级电影| 久久久久亚洲精品天堂久久久久久| 成人看的午夜免费毛片| 99re在线这里只有精品免费| eeuss免费影院| 国产亚洲人成在线影院| 国产精品亚洲午夜一区二区三区| 亚洲AV无码乱码国产麻豆穿越 | 国产亚洲精品国产| 亚洲国产精品尤物yw在线|