原標題:強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好
文章來源:新智元
內容字數:6275字
強化學習訓練:數據質量勝過規模
近年來,強化學習(RL)在大型語言模型(LLM)訓練中展現出巨大潛力,但對RL訓練數據的有效性理解仍存在空白。一篇新研究挑戰了“數據規模越大,模型推理能力越強”的傳統認知,提出了一種名為學習影響測量(LIM)的新方法,證明了數據質量對提升模型推理能力的重要性遠超數據規模。
挑戰Scaling Law
這項研究直接挑戰了強化學習領域的Scaling Law,即數據規模與模型性能之間的線性關系。研究者發現,在提升語言模型推理能力方面,精心挑選的少量高質量數據,可以達到甚至超越大量低質量數據的訓練效果。這顛覆了以往對RL訓練數據的認知,暗示Scaling Law可能并不適用于所有RL場景。
LIM方法:高效選擇高質量數據
研究團隊提出了學習影響測量(LIM)方法,該方法通過分析模型學習軌跡,量化每個訓練樣本對模型改進的貢獻。LIM計算一個歸一化對齊分數,衡量樣本獎勵變化趨勢與模型整體學習軌跡的相似程度。分數越高,表示樣本對模型改進的貢獻越大。通過設置閾值,LIM可以有效地篩選出高質量的樣本,從而構建一個精簡高效的訓練數據集(LIMR)。
實驗結果:小樣本高性能
實驗結果顯示,包含1389個樣本的LIMR數據集,其性能與包含8523個樣本的完整數據集相當甚至更優。與隨機抽樣和線性進展分析等基線方法相比,LIMR在多個基準測試(MATH500、AIME2024和AMC2023)上均取得了顯著的性能提升。這有力地證明了LIM方法在提升RL訓練數據效率方面的有效性。
RL與SFT的對比:小模型的優勢
進一步的對比實驗表明,在數據稀疏且模型較小的情況下,結合LIM方法的強化學習優于監督微調(SFT)。即使只有約1000個樣本,LIMR在AIME、AMC23和MATH500上的準確率也顯著高于SFT方法。這表明,在資源受限的情況下,選擇合適的數據并結合高效的RL訓練策略,可以有效提升小模型的推理能力。
結論:數據質量是關鍵
這項研究的核心結論是:在強化學習訓練中,提升模型推理能力的關鍵在于優化數據質量,而不是簡單地增加數據規模。LIM方法為高效的RL訓練提供了一種新的解決方案,并為理解RL訓練動態提供了重要的理論和實踐指導。該研究有望推動RL在LLM訓練中的應用,并為資源受限場景下的模型訓練提供新的思路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。