<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        清華一作1B暴打405B巨無(wú)霸,7B逆襲DeepSeek R1!測(cè)試時(shí)Scaling封神

        AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 新智元
        274 0 0

        清華一作1B暴打405B巨無(wú)霸,7B逆襲DeepSeek R1!測(cè)試時(shí)Scaling封神

        原標(biāo)題:清華一作1B暴打405B巨無(wú)霸,7B逆襲DeepSeek R1!測(cè)試時(shí)Scaling封神
        文章來(lái)源:新智元
        內(nèi)容字?jǐn)?shù):9177字

        1B模型完勝405B?測(cè)試時(shí)擴(kuò)展(TTS)帶來(lái)LLM推理能力

        近日,一篇來(lái)自清華、哈工大、北郵等機(jī)構(gòu)的聯(lián)合論文在AI領(lǐng)域引發(fā)轟動(dòng)。研究人員通過(guò)巧妙應(yīng)用計(jì)算最優(yōu)的測(cè)試時(shí)擴(kuò)展(TTS)策略,實(shí)現(xiàn)了小模型“以小勝大”的突破性進(jìn)展。該研究重新定義了測(cè)試時(shí)計(jì)算,并揭示了其在提升大語(yǔ)言模型(LLM)推理能力方面的巨大潛力。

        1. 計(jì)算最優(yōu)TTS策略:獎(jiǎng)勵(lì)感知是關(guān)鍵

        之前的研究表明,測(cè)試時(shí)擴(kuò)展可以通過(guò)在推理時(shí)分配額外算力來(lái)增強(qiáng)LLM的推理能力。但如何最優(yōu)地分配這些計(jì)算資源?研究人員發(fā)現(xiàn),計(jì)算最優(yōu)的TTS策略應(yīng)當(dāng)是獎(jiǎng)勵(lì)感知的。他們將獎(jiǎng)勵(lì)函數(shù)整合到策略中,使計(jì)算最優(yōu)擴(kuò)展能夠適應(yīng)策略模型、提示詞和獎(jiǎng)勵(lì)函數(shù),從而提供更普適的框架。

        2. 絕對(duì)問題難度標(biāo)準(zhǔn)勝過(guò)分位數(shù)

        研究發(fā)現(xiàn),使用基于Pass@1準(zhǔn)確率的分位數(shù)來(lái)衡量問題難度并不有效。不同策略模型的推理能力差異導(dǎo)致了這一問題。因此,研究人員選擇使用基于Pass@1準(zhǔn)確率的絕對(duì)閾值來(lái)定義問題難度等級(jí):簡(jiǎn)單、中等和困難。

        3. PRM選擇與TTS策略的最佳組合

        實(shí)驗(yàn)結(jié)果表明,PRM(過(guò)程獎(jiǎng)勵(lì)模型)的選擇對(duì)TTS的效果至關(guān)重要,最佳TTS策略會(huì)隨著使用的PRM而變化。PRM在不同策略模型和任務(wù)間的泛化能力是一個(gè)挑戰(zhàn),尤其是在更復(fù)雜的任務(wù)上。研究發(fā)現(xiàn),PRM的過(guò)程監(jiān)督能力越強(qiáng),其在TTS中通常能帶來(lái)更好的性能。最佳TTS方法(BoN或基于搜索的方法)也取決于策略模型的大小。

        4. 小模型的逆襲:1B模型超越405B

        研究人員通過(guò)實(shí)驗(yàn)驗(yàn)證了小模型在計(jì)算最優(yōu)TTS策略下的巨大潛力。0.5B模型在數(shù)學(xué)任務(wù)上超越了GPT-4o;3B模型超越了405B模型;7B模型甚至勝過(guò)了o1和DeepSeek R1。這表明,小模型通過(guò)計(jì)算最優(yōu)TTS策略,可以顯著提升推理性能,甚至超越大型模型。

        5. 計(jì)算最優(yōu)TTS與其他方法的比較

        與CoT(思維鏈)和多數(shù)投票等方法相比,計(jì)算最優(yōu)TTS的效率更高,推理性能也得到顯著提升。然而,隨著策略模型參數(shù)數(shù)量的增加,TTS的改進(jìn)效果逐漸減小。這表明TTS的有效性與策略模型的推理能力密切相關(guān)。

        6. TTS與基于長(zhǎng)CoT方法的對(duì)比

        研究表明,TTS比直接在MCTS生成數(shù)據(jù)上應(yīng)用RL或SFT的方法更有效,但在更復(fù)雜的任務(wù)上效果不如從強(qiáng)大的推理模型中進(jìn)行蒸餾的方法。

        7. 結(jié)論

        這項(xiàng)研究證明了計(jì)算最優(yōu)TTS策略在增強(qiáng)LLM推理能力方面的巨大潛力。它為提升小模型性能,以及更有效地利用計(jì)算資源提供了新的思路,也為未來(lái)的LLM研究提供了重要的參考價(jià)值。


        聯(lián)系作者

        文章來(lái)源:新智元
        作者微信:
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 1a级毛片免费观看| 无码专区一va亚洲v专区在线 | 成人在线免费看片| 亚洲高清免费视频| 亚洲另类春色校园小说| 污污视频免费观看网站| www视频免费看| 国产亚洲大尺度无码无码专线 | 亚洲国产精品日韩| av午夜福利一片免费看久久| 黄页网站在线看免费| 亚洲av永久无码精品漫画| 色偷偷亚洲第一综合| 桃子视频在线观看高清免费完整 | xvideos亚洲永久网址| 免费人成视频在线观看免费| 久久亚洲色一区二区三区| 亚洲精品欧美综合四区| 91香蕉成人免费网站| 亚洲AV无码专区国产乱码不卡| 1000部拍拍拍18勿入免费视频下载 | 亚洲国产精品久久久久| 一级女性全黄久久生活片免费 | 免费在线不卡视频| 亚洲系列国产精品制服丝袜第| jizz免费观看| 亚洲大片在线观看| 日本免费高清视频| 亚洲男人的天堂www| 国产成人精品免费大全| 无码乱人伦一区二区亚洲一| 免费在线视频你懂的| 亚洲AV成人片无码网站| 亚洲人成精品久久久久| 人妻视频一区二区三区免费| 亚洲欧洲精品在线| 国产精品免费_区二区三区观看| 亚洲日韩一区二区三区| 好吊妞在线成人免费| 久久亚洲精品国产精品婷婷| 在线视频观看免费视频18|