<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1等長思維鏈模型對AI-Infra的啟發

        AIGC動態7個月前發布 智猩猩GenAI
        365 0 0

        長思維鏈模型(Long-CoT)對AI-Infra的啟發

        DeepSeek R1等長思維鏈模型對AI-Infra的啟發

        原標題:DeepSeek R1等長思維鏈模型對AI-Infra的啟發
        文章來源:智猩猩GenAI
        內容字數:10760字

        O1/O3/R1/Kimi 1.5模型對AI推理框架的挑戰

        本文探討了O1/O3/R1/Kimi 1.5等大型語言模型(LLM)對AI推理框架和基礎設施帶來的挑戰。這些模型的一個共同特點是使用了長思維鏈(Long Chain-of-Thought,Long CoT)技術,顯著提升了推理能力,尤其在代碼和數學方面,但同時也增加了推理成本。

        1. Long CoT技術路線

        Long CoT技術通過生成更長的推理鏈來提升LLM的復雜推理能力。DeepSeek R1和Kimi 1.5的對比顯示,即使對于簡單的1+1=?,Long CoT模型也會產生冗長的中間推理過程,Kimi 1.5的思維鏈通常更長。

        2. O1技術路線(猜測)

        基于GPT-4的訓練過程,推測O1的訓練流程為:預訓練+CoT訓練(CoT SFT+RLHF)+后期訓練(SFT+RLHF)->推理(CoT+摘要)。CoT訓練是核心,需要補充CoT數據,這可以通過人工標注、模型蒸餾或人工合成實現。推理過程包含CoT生成和摘要兩個環節,目前尚不清楚這兩個環節是否由不同的模型完成。

        文中討論了CoT生成過程中的兩種方法:Inference-time Scaling Law(通過增加推理時間/維度提升能力)和MCTS(蒙特卡羅樹搜索,能夠生成復雜的推理樣本,但成本高)。

        在RLHF訓練策略方面,比較了ORM(Optimal Reward Model,僅對最終結果評分)和PRM(Preference Reward Model,對每個中間步驟評分)兩種方法。ORM數據需求低,PRM數據標注成本高但上限更高。文章還介紹了MATH-SHEPHERD的自動化數據標注方法。

        最后,比較了PPO和GRPO兩種RLHF優化算法,GRPO在PPO基礎上優化了計算效率。

        3. DeepSeek R1

        DeepSeek R1基于DeepSeek V3,其技術報告詳細介紹了訓練細節和失敗嘗試。主要工作包括:DeepSeek-R1-Zero(僅基于RL實現長CoT);DeepSeek-R1(基于少量高質量CoT數據冷啟動,結合RL、SFT訓練);以及模型蒸餾,用于提升小模型的推理能力。

        報告中還提到了失敗的嘗試,包括PRM和MCTS,主要由于數據標注成本高和搜索空間過大。

        4. Kimi 1.5

        Kimi 1.5也開源了技術方案,與DeepSeek R1思路類似,都拋棄了value model,采用多個采樣評估生成質量,并基于固定prompt-format指導CoT構造。其訓練過程包括預訓練、SFT、Long CoT SFT和RL四個部分。

        Kimi 1.5的創新之處在于:RL數據生成策略(考慮多樣性、難度和可評估性);Long-CoT SFT prompt-format(包含Planning/Evaluation/Reflection/Exploration等認知過程);RL策略(無需顯式構建搜索樹);以及部署工程上的優化,如Partial Rollouts、長度懲罰和樣本采樣策略優化等。

        5. AI INFRA的需求和挑戰

        Long CoT模型對AI INFRA提出了新的挑戰,包括數據傳輸(CoT、KV、prompt、logits、checkpoints)、訓推加速(混合部署下的任務切換和異步執行)、數據生成(支持多樣化采樣策略)和評估(支持Code Sandbox等)。

        6. 未來展望

        未來的研究方向包括:長/短CoT的統一;投機推理的應用;更長文本的支持;以及異構/分離部署。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久WWW免费人成—看片| 日本亚洲免费无线码| 亚洲精品视频免费观看| 国产成人免费永久播放视频平台| 亚洲an日韩专区在线| 日日麻批免费40分钟日本的| 亚洲偷自精品三十六区| 成年女人毛片免费播放人| 亚洲精品综合在线影院| 免费无码又爽又刺激毛片| WWW国产亚洲精品久久麻豆| 四虎AV永久在线精品免费观看| 国产亚洲男人的天堂在线观看| www国产亚洲精品久久久| 久久精品成人免费国产片小草| 亚洲午夜福利AV一区二区无码| 国产真人无码作爱视频免费| 亚洲黄色免费网站| 拍拍拍又黄又爽无挡视频免费| 人人狠狠综合久久亚洲| va亚洲va日韩不卡在线观看| 中文字幕久无码免费久久| 99人中文字幕亚洲区| 一二三四在线观看免费高清中文在线观看 | 亚洲夜夜欢A∨一区二区三区| a在线观看免费网址大全| 久久综合亚洲鲁鲁五月天| 最近最新的免费中文字幕| 国产精品亚洲二区在线| 亚洲综合av永久无码精品一区二区 | 国产成人免费AV在线播放 | 亚洲欧洲日产国产综合网| 最近免费中文字幕大全| 四虎精品免费永久免费视频| 亚洲AV无码不卡在线播放| 成视频年人黄网站免费视频| 一级毛片完整版免费播放一区| 西西人体44rt高清亚洲| 午夜一区二区免费视频| 免费观看一区二区三区| 亚洲熟妇无码一区二区三区导航|