Kimi官方復盤：k1.5復現o1的思考過程

要讓模型自己探索思考范式。

原標題：Kimi官方復盤：k1.5復現o1的思考過程
文章來源：Founder Park
內容字數：7655字

Kimi復現o1的關鍵技術思考：從Agentic Workflow到In Context RL with Self-Critique

本文總結了Kimi技術人員在知乎上分享的復現OpenAI o1模型的關鍵技術思考過程。文章深入探討了模型思考模式的探索，從最初的Agentic Workflow到最終的In Context RL with Self-Critique方法，以及對AGI和ASI的展望。

1. Agentic Workflow的局限性

文章指出，雖然Long Context的重要性早被認識到，但由于Long CoT（Chain of Thought）成本高、速度慢，并未被優先考慮。然而，性能才是最重要的因素。作者通過分析o1的特征（例如犯錯、反思、多種思考方法），結合Noam Brown和Hyung Won Chung的OpenAI視頻，以及Richard Sutton的“The Bitter Lesson”，意識到Long CoT的關鍵作用，并最終得出結論：Agentic Workflow 因為其結構化特性，會限制模型能力，只有短期價值，最終會被模型自身能力取代。

2. o1的本質：In Context RL with Self-Critique

Kimi團隊認為o1實際上是將in-context RL的完整軌跡作為一條信息進行訓練。模型在Long CoT下進行題目解答的過程，就是一個RL探索過程，其輸出軌跡可以表示為：s1，a1，r1，a2，r2，a3，r3，….. 其中a是解決方法（action），r是模型自我反思得到的獎勵(reward)。文章強調了o1的“self-critique”（自我批判）能力，這使得價值評估變得復雜，因為模型的錯誤并非總是負面價值，知錯能改同樣重要。

3. 訓練方法：基于REINFORCE的Contextual Bandit

由于價值評估的復雜性，Kimi團隊放棄了傳統的PRM方法，轉而將問題簡化為Contextual Bandit問題，并使用REINFORCE的變種進行訓練。簡單的說，就是模型做對題就加梯度，做錯題就減梯度，并加入一些技巧來穩定訓練過程。一個令人驚喜的發現是：模型在RL訓練過程中會自主增加token數量，提升性能。

4. 對AGI和ASI的展望

文章最后總結了整個復現過程，并對AGI和ASI進行了展望。作者認為AGI近在眼前，而RL技術是實現AGI的關鍵，只需給AI一個可衡量的目標，讓其自行探索并通過RL提升即可。未來，這一過程將被復制到更復雜的場景中，例如模擬駕駛、內容創作、應用開發等，最終實現ASI。

聯系作者

文章來源：Founder Park
作者微信：
作者簡介：來自極客公園，專注與科技創業者聊「真問題」。

閱讀原文

# AIGC動態 # AI模型調試 # Kimi復盤 # O1復現挑戰 # 參數高效微調 # 大模型可解釋性

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

Kimi官方復盤：k1.5復現o1的思考過程

要讓模型自己探索思考范式。

Kimi復現o1的關鍵技術思考：從Agentic Workflow到In Context RL with Self-Critique

1. Agentic Workflow的局限性

2. o1的本質：In Context RL with Self-Critique

3. 訓練方法：基于REINFORCE的Contextual Bandit

4. 對AGI和ASI的展望

聯系作者

淺談空間智能與空間生成

6499 元起！三星發布 Galaxy S25 系列，史上最輕薄，AI 是重點，還有 One more thing！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

Kimi官方復盤：k1.5復現o1的思考過程

要讓模型自己探索思考范式。

Kimi復現o1的關鍵技術思考：從Agentic Workflow到In Context RL with Self-Critique

1. Agentic Workflow的局限性

2. o1的本質：In Context RL with Self-Critique

3. 訓練方法：基于REINFORCE的Contextual Bandit

4. 對AGI和ASI的展望

聯系作者

淺談空間智能與空間生成

6499 元起！三星發布 Galaxy S25 系列，史上最輕薄，AI 是重點，還有 One more thing！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

要讓模型自己探索思考范式。

6499 元起！三星發布 Galaxy S25 系列，史上最輕薄，AI 是重點，還有 One more thing！