<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊黑盒

        AIGC動態3個月前發布 量子位
        391 0 0

        獎勵函數很重要

        SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊破解黑盒

        原標題:SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊黑盒
        文章來源:量子位
        內容字數:4988字

        揭秘大模型長鏈推理:從SFT到RL的探索

        本文總結了清華、CMU和IN.AI研究團隊關于大模型長鏈思維(Long Chain of Thought,Long CoT)推理機制和優化策略的研究成果。該研究旨在揭開大模型長CoT推理的神秘面紗,并提出增強和穩定其性能的實用策略。

        1. 研究背景與方法

        研究團隊以Meta的Llama-3.1-8B和阿里通義的Llama-3.1-8B兩個基礎模型為實驗對象,并選取了MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k四個代表性推理基準進行測試。研究從監督微調(SFT)和強化學習(RL)兩個方面入手,探究長CoT的觸發條件和優化策略。默認參數設置:溫度t=0.7、頂部?p值=0.95,最大輸出長度=16384 tokens。

        2. SFT對長CoT的影響

        研究發現,在長CoT數據上進行SFT能夠提升模型學習復雜推理模式的能力,并顯著提高模型性能上限,且具有比短CoT更高的性能拓展空間。實驗表明,隨著SFT token數量的增加,長CoT SFT的準確率持續提高,遠超短CoT SFT的收益,后者很快達到飽和。

        3. RL對長CoT的影響

        研究團隊將長CoT和短CoT視為RL的不同SFT初始化方法,并進行比較。結果顯示,使用長CoT SFT初始化的模型能通過RL獲得顯著改進,而短CoT SFT模型的收益很小。為了穩定CoT長度增長,研究團隊引入了帶有重復懲罰的余弦長度縮放獎勵機制,有效地平衡了推理深度并防止了無意義的長度增加。

        4. 長CoT數據整理方法

        研究比較了兩種整理長CoT數據的方法:一種是通過提示短CoT模型生成原始動作并組合;另一種是從現有長CoT模型中提煉。結果顯示,后者泛化性能更好,且可通過RL進一步改進。

        5. 基模型的內在能力與RL

        研究發現,基模型天生具備錯誤修正和回溯等技能,但通過RL有效激勵這些技能需要大量的計算。實驗表明,RL雖然能顯著提高準確性,但不一定能有效激勵基模型中存在的反射模式,如“recheck”、“retry”和“alternatively”。

        6. 四個關鍵發現

        研究總結了四個關鍵發現:

        1. SFT并非必需,但能簡化訓練并提高效率。
        2. 推理能力隨著訓練計算的增加而出現,但并非總是如此,需要獎勵塑造等技巧。
        3. 可驗證獎勵函數對CoT擴展至關重要。
        4. 基模型天生存在錯誤修正等技能,但通過RL有效激勵需要大量計算。

        7. 未來研究方向

        未來研究方向包括擴大模型規模、改進RL基礎設施、探索更有效的驗證信號以及深入分析基礎模型中的潛在能力。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 69xx免费观看视频| 一级毛片在播放免费| 久久精品毛片免费观看| 亚洲精品无码专区久久久| 国产精品免费久久| 国产啪亚洲国产精品无码| 黄色三级三级免费看| 亚洲黄黄黄网站在线观看| 日韩精品无码永久免费网站| 亚洲精品无码久久不卡| 国产免费牲交视频免费播放| 亚洲无线观看国产精品| 亚洲视频免费在线观看| 亚洲制服丝袜在线播放| 免费看美女被靠到爽| 另类图片亚洲校园小说区| 又爽又高潮的BB视频免费看 | 亚洲日韩精品无码一区二区三区| 羞羞视频免费网站在线看| 久久99国产亚洲高清观看首页| 久操免费在线观看| 国产精品亚洲专区在线观看| 免费看大美女大黄大色| 人人爽人人爽人人片A免费| 国产亚洲精久久久久久无码77777| 99精品视频在线观看免费专区| 亚洲剧情在线观看| 波多野结衣中文一区二区免费| 久久久久久久国产免费看| 亚洲人成网www| 在线成人a毛片免费播放| sss在线观看免费高清| 亚洲网站免费观看| 日韩中文无码有码免费视频| aaa毛片免费观看| 亚洲短视频在线观看| 日韩午夜免费视频| 久久黄色免费网站| 国产成人久久精品亚洲小说| 亚洲av无码精品网站| 国产精品二区三区免费播放心|