<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好

        AIGC動態3個月前發布 新智元
        223 0 0

        強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好

        原標題:強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好
        文章來源:新智元
        內容字數:6275字

        強化學習訓練:數據質量勝過規模

        近年來,強化學習(RL)在大型語言模型(LLM)訓練中展現出巨大潛力,但對RL訓練數據的有效性理解仍存在空白。一篇新研究挑戰了“數據規模越大,模型推理能力越強”的傳統認知,提出了一種名為學習影響測量(LIM)的新方法,證明了數據質量對提升模型推理能力的重要性遠超數據規模。

        1. 挑戰Scaling Law

          這項研究直接挑戰了強化學習領域的Scaling Law,即數據規模與模型性能之間的線性關系。研究者發現,在提升語言模型推理能力方面,精心挑選的少量高質量數據,可以達到甚至超越大量低質量數據的訓練效果。這顛覆了以往對RL訓練數據的認知,暗示Scaling Law可能并不適用于所有RL場景。

        2. LIM方法:高效選擇高質量數據

          研究團隊提出了學習影響測量(LIM)方法,該方法通過分析模型學習軌跡,量化每個訓練樣本對模型改進的貢獻。LIM計算一個歸一化對齊分數,衡量樣本獎勵變化趨勢與模型整體學習軌跡的相似程度。分數越高,表示樣本對模型改進的貢獻越大。通過設置閾值,LIM可以有效地篩選出高質量的樣本,從而構建一個精簡高效的訓練數據集(LIMR)。

        3. 實驗結果:小樣本高性能

          實驗結果顯示,包含1389個樣本的LIMR數據集,其性能與包含8523個樣本的完整數據集相當甚至更優。與隨機抽樣和線性進展分析等基線方法相比,LIMR在多個基準測試(MATH500、AIME2024和AMC2023)上均取得了顯著的性能提升。這有力地證明了LIM方法在提升RL訓練數據效率方面的有效性。

        4. RL與SFT的對比:小模型的優勢

          進一步的對比實驗表明,在數據稀疏且模型較小的情況下,結合LIM方法的強化學習優于監督微調(SFT)。即使只有約1000個樣本,LIMR在AIME、AMC23和MATH500上的準確率也顯著高于SFT方法。這表明,在資源受限的情況下,選擇合適的數據并結合高效的RL訓練策略,可以有效提升小模型的推理能力。

        5. 結論:數據質量是關鍵

          這項研究的核心結論是:在強化學習訓練中,提升模型推理能力的關鍵在于優化數據質量,而不是簡單地增加數據規模。LIM方法為高效的RL訓練提供了一種新的解決方案,并為理解RL訓練動態提供了重要的理論和實踐指導。該研究有望推動RL在LLM訓練中的應用,并為資源受限場景下的模型訓練提供新的思路。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 四虎永久精品免费观看| 亚洲bt加勒比一区二区| 久久亚洲国产精品123区| 亚洲一区二区三区丝袜| www.av在线免费观看| 国产福利免费视频| 亚洲午夜国产片在线观看| 色婷婷亚洲十月十月色天| 久久久久久成人毛片免费看| 久久夜色精品国产噜噜噜亚洲AV | 亚洲成A∨人片天堂网无码| 亚洲电影国产一区| 久久精品一本到99热免费| 国产小视频免费观看| 国产天堂亚洲精品| 亚洲精品视频免费看| 国产亚洲精久久久久久无码77777| 亚洲精品中文字幕乱码| 色噜噜狠狠色综合免费视频 | 13小箩利洗澡无码视频网站免费| 亚洲欧洲∨国产一区二区三区| 国产免费一区二区三区在线观看 | 成人片黄网站色大片免费| 亚洲精品无码av片| 亚洲第一成人影院| 欧洲人免费视频网站在线| 亚洲乱码卡一卡二卡三| 免费一区二区三区| 精品日韩99亚洲的在线发布| 国产性生交xxxxx免费| 在线观看免费无码专区| 亚洲AV无码久久久久网站蜜桃 | 亚洲日本在线观看网址| 日韩视频在线免费观看| 丁香花在线观看免费观看图片| 中文字幕亚洲精品| 暖暖日本免费中文字幕| 一区二区亚洲精品精华液| 亚洲日本一线产区和二线 | 一级人做人a爰免费视频| 久久综合亚洲鲁鲁五月天|