Kimi技術大牛復盤：k1.5復現o1的思考過程

這里想和大家分享一下o1復現的一些關鍵思考過程。

原標題：Kimi技術大牛復盤：k1.5復現o1的思考過程
文章來源：智猩猩GenAI
內容字數：7066字

Flood Sung：o1復現的關鍵思考過程

本文是Flood Sung對o1復現過程的思考總結，分享了其Long Chain of Thoughts (Long CoT) 的關鍵步驟和思考。文章的核心在于如何訓練模型像人一樣思考，最終實現AGI。

1. Long CoT 的有效性與反思

o1發布后效果震撼，其Long CoT的有效性引發了作者的反思。作者回憶起一年多前Tim @周昕宇的實驗，使用小型模型訓練幾十位加減乘除運算，并將其合成Long CoT數據進行SFT，取得了顯著效果。這驗證了Long Context的重要性，但當時由于成本和速度的考量，Long CoT并未被優先考慮。

2. 訓練模型思考的關鍵

為了理解o1的工作機制，作者分析了o1官網的例子，發現其可以犯錯，并通過反思和嘗試改進。o1的思考方式靈活多樣，包括重述問題、聯想和分治等。Noam Brown和Hyung Won Chung的OpenAI視頻為作者提供了重要啟示：Noam Brown強調了Test-Time Search的重要性，指出模型需要自行搜索；Hyung Won Chung強調“Don’t Teach,Incentivize”，指出人為添加結構化inductive bias會限制模型能力，Agentic Workflow只有短期價值。作者由此得出結論：需要訓練模型像人一樣思考。

3. 基于精確Reward的RL訓練

Noam Brown的PPT強調了進行精確Reward的RL訓練的重要性，避免Reward Model的限制。作者指出，RL的性能完全取決于Reward，而以往的RLHF由于Human Preference難以精準建模，容易出現Reward hacking。因此，作者選擇使用具有標準答案的數學和代碼題作為訓練數據。

作者分析了o1的訓練過程，認為其實際上是“In Context RL with Self-Critique”，將完整的trajectory作為message輸入模型。模型在Long CoT下進行next token prediction，學習解決問題，其輸出軌跡包含一系列action和reward。由于模型自我反思，難以精確估計每個step的value，作者最終選擇將問題建模為Contextual Bandit問題，使用REINFORCE的變種進行訓練。訓練過程中，模型的token數會隨著性能提升而增加，這是RL訓練過程中模型涌現的能力。

4. AGI近在眼前

作者總結了整個思考過程，認為通過RL訓練LLM進行Long CoT解題，并通過Contextual Bandit解決value估計難題，最終實現了o1的復現。作者相信AGI近在眼前，未來的發展方向是將這種方法應用到更復雜的場景中，例如模擬駕駛、內容創作和應用開發等。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # AI模型復現 # K15復現 # o1復現 # 參數高效遷移學習 # 深度學習模型復現

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

Kimi技術大牛復盤：k1.5復現o1的思考過程

這里想和大家分享一下o1復現的一些關鍵思考過程。

Flood Sung：o1復現的關鍵思考過程

1. Long CoT 的有效性與反思

2. 訓練模型思考的關鍵

3. 基于精確Reward的RL訓練

4. AGI近在眼前

聯系作者

這家AI悄悄上線閱讀模式，手機刷論文就像看小說一樣爽！

賈佳亞團隊聯合Adobe提出GenProp，物體追蹤移除特效樣樣在行

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

Kimi技術大牛復盤：k1.5復現o1的思考過程

這里想和大家分享一下o1復現的一些關鍵思考過程。

Flood Sung：o1復現的關鍵思考過程

1. Long CoT 的有效性與反思

2. 訓練模型思考的關鍵

3. 基于精確Reward的RL訓練

4. AGI近在眼前

聯系作者

這家AI悄悄上線閱讀模式，手機刷論文就像看小說一樣爽！

賈佳亞團隊聯合Adobe提出GenProp，物體追蹤移除特效樣樣在行

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

這里想和大家分享一下o1復現的一些關鍵思考過程。

這家AI悄悄上線閱讀模式，手機刷論文就像看小說一樣爽！