<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        上海AI Lab重塑大模型挑戰(zhàn),重新定義GPT-4o數(shù)學(xué)能力!

        AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 量子位
        385 0 0

        最強(qiáng)推理模型o1-mini也會(huì)下降3成6

        上海AI Lab重塑大模型挑戰(zhàn),重新定義GPT-4o數(shù)學(xué)能力!

        原標(biāo)題:GPT-4o數(shù)學(xué)能力跑分直掉50%,上海AI Lab開(kāi)始給大模型重新出題了
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):7405字

        研究團(tuán)隊(duì)對(duì)大型模型數(shù)學(xué)推理能力的深入分析

        根據(jù)上海AI實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)的研究,當(dāng)前大型模型在數(shù)學(xué)推理方面的表現(xiàn)存在顯著差距,尤其是在多次采樣時(shí)的穩(wěn)定性不足。盡管新模型在MATH等數(shù)學(xué)競(jìng)賽中表現(xiàn)出色,實(shí)際使用時(shí)卻表現(xiàn)不佳。為此,團(tuán)隊(duì)推出了新的復(fù)雜數(shù)學(xué)評(píng)測(cè)集LiveMathBench,結(jié)合全新的性能指標(biāo)G-Pass@16?,以更全面地評(píng)估模型的性能潛力和穩(wěn)定性。

        1. 新評(píng)價(jià)指標(biāo)G-Pass@k的提出

        研究團(tuán)隊(duì)重新思考了傳統(tǒng)的評(píng)測(cè)指標(biāo),如Pass@k和Best-of-N,發(fā)現(xiàn)這些指標(biāo)主要關(guān)注模型的性能潛力,而忽略了穩(wěn)定性。G-Pass@k通過(guò)引入閾值?,衡量模型在多次生成中至少給出一定次數(shù)正確答案的概率,能夠更好地反映模型的實(shí)際表現(xiàn)。

        2. LiveMathBench數(shù)據(jù)集的構(gòu)建

        團(tuán)隊(duì)構(gòu)建了LiveMathBench數(shù)據(jù)集,以減少數(shù)據(jù)污染的可能性。該數(shù)據(jù)集包含238道題目,覆蓋不同難度,旨在持續(xù)觀測(cè)大型模型的真實(shí)數(shù)學(xué)水平。實(shí)驗(yàn)結(jié)果顯示,大部分模型在G-Pass@16?指標(biāo)上表現(xiàn)不佳,甚至最強(qiáng)模型o1-mini的性能也顯著下降。

        3. 模型性能的觀察與分析

        研究發(fā)現(xiàn),閉源和開(kāi)源模型在復(fù)雜推理任務(wù)上均無(wú)法穩(wěn)定地表現(xiàn)出色。即使是表現(xiàn)較好的模型,在G-Pass@K評(píng)估中,性能也出現(xiàn)了明顯下降。此外,增大模型規(guī)模并未顯著提升推理能力,說(shuō)明簡(jiǎn)單擴(kuò)展參數(shù)并不能解決模型在推理和上下文理解上的不足。

        4. 性能潛力與實(shí)際表現(xiàn)的差距

        研究還揭示了理論最大能力與實(shí)際表現(xiàn)之間的巨大差距。雖然一些模型在單次推理中表現(xiàn)優(yōu)秀,但在多次重復(fù)采樣中卻難以保持穩(wěn)定,顯示出推理穩(wěn)定性和一致性不足的問(wèn)題。這一發(fā)現(xiàn)強(qiáng)調(diào)了在高可靠性要求的應(yīng)用中,需要平衡模型的性能和輸出穩(wěn)定性。

        總結(jié)

        本研究通過(guò)引入G-Pass@16?指標(biāo)和LiveMathBench數(shù)據(jù)集,深入分析了當(dāng)前大型模型的數(shù)學(xué)推理能力。實(shí)驗(yàn)結(jié)果表明,當(dāng)前模型在推理穩(wěn)定性上仍有待提高,未來(lái)需要在魯棒性研究上持續(xù)探索與推進(jìn)。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: a级精品九九九大片免费看| 亚洲一卡二卡三卡| 国产成人在线免费观看| 国产大片51精品免费观看| 一本色道久久88—综合亚洲精品| 最近免费中文字幕mv电影| 亚洲天堂中文字幕| 亚洲6080yy久久无码产自国产 | 亚洲国产品综合人成综合网站| 永久免费A∨片在线观看| 亚洲av一综合av一区| 亚洲经典千人经典日产| 久久福利青草精品资源站免费| 亚洲成av人在线视| 91精品免费高清在线| 亚洲欧洲日韩国产一区二区三区| 免费无码一区二区三区| 亚洲精品动漫在线| 色欲A∨无码蜜臀AV免费播| 亚洲国产成人五月综合网 | 中文字幕在线观看亚洲| 青娱乐免费在线视频| 亚洲av永久无码| 亚洲午夜福利精品无码| 亚洲av乱码一区二区三区按摩| 亚洲A丁香五香天堂网| 三年片免费观看大全国语| 91在线亚洲精品专区| 国产福利在线观看免费第一福利| 亚洲国产精品国自产拍电影| 亚洲精品视频免费在线观看| 亚洲国产天堂久久综合网站| 男女做羞羞的事视频免费观看无遮挡| 亚洲熟妇无码一区二区三区| 亚洲精品无码AV中文字幕电影网站| 亚洲av中文无码字幕色不卡| 久久久久一级精品亚洲国产成人综合AV区 | 老司机69精品成免费视频| ww亚洲ww在线观看国产| 亚洲国产一区视频| 国产精品爱啪在线线免费观看|