国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

DeepSeek R1等長思維鏈模型對AI-Infra的啟發

長思維鏈模型(Long-CoT)對AI-Infra的啟發

DeepSeek R1等長思維鏈模型對AI-Infra的啟發

原標題：DeepSeek R1等長思維鏈模型對AI-Infra的啟發
文章來源：智猩猩GenAI
內容字數：10760字

O1/O3/R1/Kimi 1.5模型對AI推理框架的挑戰

本文探討了O1/O3/R1/Kimi 1.5等大型語言模型（LLM）對AI推理框架和基礎設施帶來的挑戰。這些模型的一個共同特點是使用了長思維鏈（Long Chain-of-Thought，Long CoT）技術，顯著提升了推理能力，尤其在代碼和數學方面，但同時也增加了推理成本。

1. Long CoT技術路線

Long CoT技術通過生成更長的推理鏈來提升LLM的復雜推理能力。DeepSeek R1和Kimi 1.5的對比顯示，即使對于簡單的1+1=?，Long CoT模型也會產生冗長的中間推理過程，Kimi 1.5的思維鏈通常更長。

2. O1技術路線（猜測）

基于GPT-4的訓練過程，推測O1的訓練流程為：預訓練+CoT訓練（CoT SFT+RLHF）+后期訓練（SFT+RLHF）->推理（CoT+摘要）。CoT訓練是核心，需要補充CoT數據，這可以通過人工標注、模型蒸餾或人工合成實現。推理過程包含CoT生成和摘要兩個環節，目前尚不清楚這兩個環節是否由不同的模型完成。

文中討論了CoT生成過程中的兩種方法：Inference-time Scaling Law（通過增加推理時間/維度提升能力）和MCTS（蒙特卡羅樹搜索，能夠生成復雜的推理樣本，但成本高）。

在RLHF訓練策略方面，比較了ORM（Optimal Reward Model，僅對最終結果評分）和PRM（Preference Reward Model，對每個中間步驟評分）兩種方法。ORM數據需求低，PRM數據標注成本高但上限更高。文章還介紹了MATH-SHEPHERD的自動化數據標注方法。

最后，比較了PPO和GRPO兩種RLHF優化算法，GRPO在PPO基礎上優化了計算效率。

3. DeepSeek R1

DeepSeek R1基于DeepSeek V3，其技術報告詳細介紹了訓練細節和失敗嘗試。主要工作包括：DeepSeek-R1-Zero（僅基于RL實現長CoT）；DeepSeek-R1（基于少量高質量CoT數據冷啟動，結合RL、SFT訓練）；以及模型蒸餾，用于提升小模型的推理能力。

報告中還提到了失敗的嘗試，包括PRM和MCTS，主要由于數據標注成本高和搜索空間過大。

4. Kimi 1.5

Kimi 1.5也開源了技術方案，與DeepSeek R1思路類似，都拋棄了value model，采用多個采樣評估生成質量，并基于固定prompt-format指導CoT構造。其訓練過程包括預訓練、SFT、Long CoT SFT和RL四個部分。

Kimi 1.5的創新之處在于：RL數據生成策略（考慮多樣性、難度和可評估性）；Long-CoT SFT prompt-format（包含Planning/Evaluation/Reflection/Exploration等認知過程）；RL策略（無需顯式構建搜索樹）；以及部署工程上的優化，如Partial Rollouts、長度懲罰和樣本采樣策略優化等。