<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊黑盒

        AIGC動態7個月前發布 量子位
        395 0 0

        獎勵函數很重要

        SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊破解黑盒

        原標題:SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊黑盒
        文章來源:量子位
        內容字數:4988字

        揭秘大模型長鏈推理:從SFT到RL的探索

        本文總結了清華、CMU和IN.AI研究團隊關于大模型長鏈思維(Long Chain of Thought,Long CoT)推理機制和優化策略的研究成果。該研究旨在揭開大模型長CoT推理的神秘面紗,并提出增強和穩定其性能的實用策略。

        1. 研究背景與方法

        研究團隊以Meta的Llama-3.1-8B和阿里通義的Llama-3.1-8B兩個基礎模型為實驗對象,并選取了MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k四個代表性推理基準進行測試。研究從監督微調(SFT)和強化學習(RL)兩個方面入手,探究長CoT的觸發條件和優化策略。默認參數設置:溫度t=0.7、頂部?p值=0.95,最大輸出長度=16384 tokens。

        2. SFT對長CoT的影響

        研究發現,在長CoT數據上進行SFT能夠提升模型學習復雜推理模式的能力,并顯著提高模型性能上限,且具有比短CoT更高的性能拓展空間。實驗表明,隨著SFT token數量的增加,長CoT SFT的準確率持續提高,遠超短CoT SFT的收益,后者很快達到飽和。

        3. RL對長CoT的影響

        研究團隊將長CoT和短CoT視為RL的不同SFT初始化方法,并進行比較。結果顯示,使用長CoT SFT初始化的模型能通過RL獲得顯著改進,而短CoT SFT模型的收益很小。為了穩定CoT長度增長,研究團隊引入了帶有重復懲罰的余弦長度縮放獎勵機制,有效地平衡了推理深度并防止了無意義的長度增加。

        4. 長CoT數據整理方法

        研究比較了兩種整理長CoT數據的方法:一種是通過提示短CoT模型生成原始動作并組合;另一種是從現有長CoT模型中提煉。結果顯示,后者泛化性能更好,且可通過RL進一步改進。

        5. 基模型的內在能力與RL

        研究發現,基模型天生具備錯誤修正和回溯等技能,但通過RL有效激勵這些技能需要大量的計算。實驗表明,RL雖然能顯著提高準確性,但不一定能有效激勵基模型中存在的反射模式,如“recheck”、“retry”和“alternatively”。

        6. 四個關鍵發現

        研究總結了四個關鍵發現:

        1. SFT并非必需,但能簡化訓練并提高效率。
        2. 推理能力隨著訓練計算的增加而出現,但并非總是如此,需要獎勵塑造等技巧。
        3. 可驗證獎勵函數對CoT擴展至關重要。
        4. 基模型天生存在錯誤修正等技能,但通過RL有效激勵需要大量計算。

        7. 未來研究方向

        未來研究方向包括擴大模型規模、改進RL基礎設施、探索更有效的驗證信號以及深入分析基礎模型中的潛在能力。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品一区二区九九| 亚洲国产成人精品无码区花野真一 | 国产亚洲无线码一区二区| 亚洲欧洲日产国产综合网| 亚洲精品少妇30p| 亚洲欧洲自拍拍偷综合| 亚洲精品国产第一综合99久久| 成年网站免费入口在线观看| 亚洲日韩中文字幕天堂不卡| 中国china体内裑精亚洲日本| 亚洲综合无码一区二区| 亚洲综合偷自成人网第页色| 一级毛片a免费播放王色| 国产亚洲福利精品一区二区| 亚洲国产一区二区三区在线观看 | 国产无遮挡裸体免费视频在线观看| 免费无码专区毛片高潮喷水| 国产精品久久亚洲一区二区| 日本免费一区二区久久人人澡| 免费看国产精品3a黄的视频| 好爽…又高潮了免费毛片| 国产亚洲av人片在线观看| 亚洲校园春色另类激情| 一区二区三区免费视频播放器 | 噜噜综合亚洲AV中文无码| 你懂的免费在线观看网站| 日本高清免费不卡视频| 亚洲Av无码乱码在线观看性色| 久久久无码精品亚洲日韩京东传媒| 亚洲白嫩在线观看| h视频免费高清在线观看| 亚洲免费观看视频| 亚洲AV无码一区二三区 | 亚洲人成网亚洲欧洲无码| 日韩精品内射视频免费观看| 亚洲精品乱码久久久久久不卡| 中文文字幕文字幕亚洲色| 久久精品国产这里是免费| 亚洲综合图色40p| 免费国产草莓视频在线观看黄| 成人一a毛片免费视频|