<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好

        AIGC動態7個月前發布 新智元
        234 0 0

        強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好

        原標題:強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好
        文章來源:新智元
        內容字數:6275字

        強化學習訓練:數據質量勝過規模

        近年來,強化學習(RL)在大型語言模型(LLM)訓練中展現出巨大潛力,但對RL訓練數據的有效性理解仍存在空白。一篇新研究挑戰了“數據規模越大,模型推理能力越強”的傳統認知,提出了一種名為學習影響測量(LIM)的新方法,證明了數據質量對提升模型推理能力的重要性遠超數據規模。

        1. 挑戰Scaling Law

          這項研究直接挑戰了強化學習領域的Scaling Law,即數據規模與模型性能之間的線性關系。研究者發現,在提升語言模型推理能力方面,精心挑選的少量高質量數據,可以達到甚至超越大量低質量數據的訓練效果。這顛覆了以往對RL訓練數據的認知,暗示Scaling Law可能并不適用于所有RL場景。

        2. LIM方法:高效選擇高質量數據

          研究團隊提出了學習影響測量(LIM)方法,該方法通過分析模型學習軌跡,量化每個訓練樣本對模型改進的貢獻。LIM計算一個歸一化對齊分數,衡量樣本獎勵變化趨勢與模型整體學習軌跡的相似程度。分數越高,表示樣本對模型改進的貢獻越大。通過設置閾值,LIM可以有效地篩選出高質量的樣本,從而構建一個精簡高效的訓練數據集(LIMR)。

        3. 實驗結果:小樣本高性能

          實驗結果顯示,包含1389個樣本的LIMR數據集,其性能與包含8523個樣本的完整數據集相當甚至更優。與隨機抽樣和線性進展分析等基線方法相比,LIMR在多個基準測試(MATH500、AIME2024和AMC2023)上均取得了顯著的性能提升。這有力地證明了LIM方法在提升RL訓練數據效率方面的有效性。

        4. RL與SFT的對比:小模型的優勢

          進一步的對比實驗表明,在數據稀疏且模型較小的情況下,結合LIM方法的強化學習優于監督微調(SFT)。即使只有約1000個樣本,LIMR在AIME、AMC23和MATH500上的準確率也顯著高于SFT方法。這表明,在資源受限的情況下,選擇合適的數據并結合高效的RL訓練策略,可以有效提升小模型的推理能力。

        5. 結論:數據質量是關鍵

          這項研究的核心結論是:在強化學習訓練中,提升模型推理能力的關鍵在于優化數據質量,而不是簡單地增加數據規模。LIM方法為高效的RL訓練提供了一種新的解決方案,并為理解RL訓練動態提供了重要的理論和實踐指導。該研究有望推動RL在LLM訓練中的應用,并為資源受限場景下的模型訓練提供新的思路。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产亚洲成av片在线观看| 毛片免费观看的视频| 国产aa免费视频| 国产亚洲精品bv在线观看| 成人免费区一区二区三区| a级毛片免费完整视频| 免费无码VA一区二区三区 | 亚洲精品高清一二区久久| 亚洲无人区一区二区三区| 亚洲AV综合色区无码二区爱AV| 国产好大好硬好爽免费不卡| 亚洲福利视频导航| 亚洲综合色丁香婷婷六月图片| 和日本免费不卡在线v| 国产亚洲中文日本不卡二区| 国产成人A在线观看视频免费 | 成人性做爰aaa片免费看| 亚洲春色在线视频| 久久久久久国产精品免费无码| 99久久精品国产亚洲| 青青青国产在线观看免费 | 亚洲?v无码国产在丝袜线观看| 成a人片亚洲日本久久| 国产精成人品日日拍夜夜免费| 亚洲国产精品国自产拍电影| 美女又黄又免费的视频| 日韩免费高清大片在线| 亚洲国产美女精品久久久久| 成年丰满熟妇午夜免费视频| 国产成人亚洲精品电影| 精品熟女少妇AV免费观看| 偷自拍亚洲视频在线观看| 国产AV无码专区亚洲AV手机麻豆| 色噜噜的亚洲男人的天堂| 亚洲人成无码网站久久99热国产| 久久精品免费观看| 亚洲理论电影在线观看| 美女内射无套日韩免费播放| 亚洲欧美乱色情图片| 毛片免费在线观看网址| 五月婷婷免费视频|