強化學習Scaling Law錯了？無需蒸餾，數據量只要1/6，效果還更好

原標題：強化學習Scaling Law錯了？無需蒸餾，數據量只要1/6，效果還更好
文章來源：新智元
內容字數：6275字

強化學習訓練：數據質量勝過規模

近年來，強化學習(RL)在大型語言模型(LLM)訓練中展現出巨大潛力，但對RL訓練數據的有效性理解仍存在空白。一篇新研究挑戰了“數據規模越大，模型推理能力越強”的傳統認知，提出了一種名為學習影響測量(LIM)的新方法，證明了數據質量對提升模型推理能力的重要性遠超數據規模。

挑戰Scaling Law
這項研究直接挑戰了強化學習領域的Scaling Law，即數據規模與模型性能之間的線性關系。研究者發現，在提升語言模型推理能力方面，精心挑選的少量高質量數據，可以達到甚至超越大量低質量數據的訓練效果。這顛覆了以往對RL訓練數據的認知，暗示Scaling Law可能并不適用于所有RL場景。
LIM方法：高效選擇高質量數據
研究團隊提出了學習影響測量(LIM)方法，該方法通過分析模型學習軌跡，量化每個訓練樣本對模型改進的貢獻。LIM計算一個歸一化對齊分數，衡量樣本獎勵變化趨勢與模型整體學習軌跡的相似程度。分數越高，表示樣本對模型改進的貢獻越大。通過設置閾值，LIM可以有效地篩選出高質量的樣本，從而構建一個精簡高效的訓練數據集(LIMR)。
實驗結果：小樣本高性能
實驗結果顯示，包含1389個樣本的LIMR數據集，其性能與包含8523個樣本的完整數據集相當甚至更優。與隨機抽樣和線性進展分析等基線方法相比，LIMR在多個基準測試（MATH500、AIME2024和AMC2023）上均取得了顯著的性能提升。這有力地證明了LIM方法在提升RL訓練數據效率方面的有效性。
RL與SFT的對比：小模型的優勢
進一步的對比實驗表明，在數據稀疏且模型較小的情況下，結合LIM方法的強化學習優于監督微調(SFT)。即使只有約1000個樣本，LIMR在AIME、AMC23和MATH500上的準確率也顯著高于SFT方法。這表明，在資源受限的情況下，選擇合適的數據并結合高效的RL訓練策略，可以有效提升小模型的推理能力。
結論：數據質量是關鍵
這項研究的核心結論是：在強化學習訓練中，提升模型推理能力的關鍵在于優化數據質量，而不是簡單地增加數據規模。LIM方法為高效的RL訓練提供了一種新的解決方案，并為理解RL訓練動態提供了重要的理論和實踐指導。該研究有望推動RL在LLM訓練中的應用，并為資源受限場景下的模型訓練提供新的思路。