<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限

        AIGC動態7個月前發布 量子位
        472 0 0

        基于結果獎勵的強化學習新范式

        不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限

        原標題:不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限
        文章來源:量子位
        內容字數:4875字

        上海AI Lab突破數學推理瓶頸:強化學習超越蒸餾,無需超大模型

        上海AI Lab近日取得重大突破,其基于結果獎勵的強化學習新范式OREAL,在數學推理任務中超越了DeepSeek-R1等超大模型的性能。這項研究顛覆了傳統依賴于蒸餾超大模型的范式,僅通過微調和基于結果反饋的強化學習,便在7B和32B模型上取得了令人矚目的成果。

        1. 挑戰“三重門”:數學推理的困境

        當前大模型數學推理面臨“三重門”困境:稀疏獎勵困境(僅有最終答案的二元反饋)、局部正確陷阱(部分正確步驟可能誤導模型)以及規模依賴魔咒(依賴超大模型蒸餾)。

        2. OREAL:重新定義結果獎勵強化學習

        為了解決這些難題,上海AI Lab團隊重新設計了結果獎勵強化學習算法OREAL。該算法的核心在于對正負樣本和長序列的處理策略:

        1. 正樣本:利用最佳軌跡采樣(BoN)的行為克隆,學習最優策略。

        2. 負樣本:采用獎勵重塑,維護策略優化目標的一致性,避免梯度偏差。

        3. 長序列:設計token重要性估計器,構建序列累計形式的獎勵函數,實現更細粒度的獎勵分配,精確定位核心錯誤步驟。

        OREAL的策略可以概括為:在正確樣本上模仿學習,在錯誤樣本上偏好學習,對關鍵步驟做重點學習。

        3. 實驗結果:超越DeepSeek-R1及其他模型

        在7B和32B模型上,OREAL僅使用4000條高質量訓練樣本,便取得了顯著成果:Oreal-7B在MATH-500上達到91.0的pass@1準確率,超越了QWQ-32B-Preview和OpenAI-O1-Mini;Oreal-32B在MATH-500上達到95.0的分數,超越了DeepSeek-r1-Distill-Qwen-32B。將OREAL應用于DeepSeek-r1-Distill-Qwen-7B后,更是創下了7B模型的新記錄(94.0 pass@1精度)。

        4. 起點模型和數據的重要性

        研究團隊還發現,起點模型和訓練數據對最終模型效果至關重要。起點模型越強,RL后的性能越好。高質量的數據集能夠讓模型充分發揮其潛力。因此,團隊開源了RL訓練的數據、起點和最終模型,以促進社區的公平比較和進一步研究。

        5. 結論與未來展望

        OREAL的成功證明了基于結果獎勵的強化學習在數學推理任務中的巨大潛力,它擺脫了對超大模型蒸餾的依賴,為降低大模型訓練成本提供了新的思路。然而,訓練數據的質量、難度和數量仍然是影響RL性能的關鍵因素,這為未來的研究留下了空間。

        項目鏈接:https://github.com/InternLM/OREAL

        論文地址:https://arxiv.org/abs/2502.06781

        RL 訓練數據鏈接:https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

        系列模型地址:https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 毛片无码免费无码播放| 国产亚洲欧美日韩亚洲中文色| 国产精品福利片免费看| 国产成人精品123区免费视频| 91在线亚洲综合在线| 两个人的视频高清在线观看免费| 亚洲日本人成中文字幕| 无码乱肉视频免费大全合集| 亚洲1区1区3区4区产品乱码芒果| 国产v精品成人免费视频400条| 亚洲国产中文在线视频| 国产精品久久久久免费a∨| 亚洲欧洲日韩国产一区二区三区| 成人黄软件网18免费下载成人黄18免费视频 | 91免费福利视频| 久久综合九九亚洲一区| 最近2022中文字幕免费视频 | 国产亚洲精品拍拍拍拍拍| 国产精品视频全国免费观看 | 国产成人亚洲综合无码精品| 久久狠狠躁免费观看| 91午夜精品亚洲一区二区三区| 毛片免费观看的视频| 国产AV无码专区亚洲AV麻豆丫| 亚洲无码视频在线| 少妇人妻偷人精品免费视频| 亚洲日本久久久午夜精品| 亚洲av片一区二区三区| 中文字幕免费在线看线人动作大片| 久久久久亚洲精品美女| 免费看国产精品3a黄的视频| mm1313亚洲国产精品无码试看| 亚洲综合色成在线播放| 99久久久国产精品免费牛牛四川| 亚洲女人初试黑人巨高清| 国产精品国产免费无码专区不卡 | 99久久99这里只有免费的精品| 亚洲综合色丁香麻豆| 好吊妞视频免费视频| 毛片基地看看成人免费| 亚洲另类春色校园小说|