<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Kimi官方復盤:k1.5復現o1的思考過程

        AIGC動態4個月前發布 Founder Park
        417 0 0

        要讓模型自己探索思考范式。

        Kimi官方復盤:k1.5復現o1的思考過程

        原標題:Kimi官方復盤:k1.5復現o1的思考過程
        文章來源:Founder Park
        內容字數:7655字

        Kimi復現o1的關鍵技術思考:從Agentic Workflow到In Context RL with Self-Critique

        本文總結了Kimi技術人員在知乎上分享的復現OpenAI o1模型的關鍵技術思考過程。文章深入探討了模型思考模式的探索,從最初的Agentic Workflow到最終的In Context RL with Self-Critique方法,以及對AGI和ASI的展望。

        1. Agentic Workflow的局限性

        文章指出,雖然Long Context的重要性早被認識到,但由于Long CoT(Chain of Thought)成本高、速度慢,并未被優先考慮。然而,性能才是最重要的因素。 作者通過分析o1的特征(例如犯錯、反思、多種思考方法),結合Noam Brown和Hyung Won Chung的OpenAI視頻,以及Richard Sutton的“The Bitter Lesson”,意識到Long CoT的關鍵作用,并最終得出結論:Agentic Workflow 因為其結構化特性,會限制模型能力,只有短期價值,最終會被模型自身能力取代。

        2. o1的本質:In Context RL with Self-Critique

        Kimi團隊認為o1實際上是將in-context RL的完整軌跡作為一條信息進行訓練。模型在Long CoT下進行題目解答的過程,就是一個RL探索過程,其輸出軌跡可以表示為:s1,a1,r1,a2,r2,a3,r3,….. 其中a是解決方法(action),r是模型自我反思得到的獎勵(reward)。 文章強調了o1的“self-critique”(自我批判)能力,這使得價值評估變得復雜,因為模型的錯誤并非總是負面價值,知錯能改同樣重要。

        3. 訓練方法:基于REINFORCE的Contextual Bandit

        由于價值評估的復雜性,Kimi團隊放棄了傳統的PRM方法,轉而將問題簡化為Contextual Bandit問題,并使用REINFORCE的變種進行訓練。 簡單的說,就是模型做對題就加梯度,做錯題就減梯度,并加入一些技巧來穩定訓練過程。 一個令人驚喜的發現是:模型在RL訓練過程中會自主增加token數量,提升性能。

        4. 對AGI和ASI的展望

        文章最后總結了整個復現過程,并對AGI和ASI進行了展望。作者認為AGI近在眼前,而RL技術是實現AGI的關鍵,只需給AI一個可衡量的目標,讓其自行探索并通過RL提升即可。未來,這一過程將被復制到更復雜的場景中,例如模擬駕駛、內容創作、應用開發等,最終實現ASI。


        聯系作者

        文章來源:Founder Park
        作者微信:
        作者簡介:來自極客公園,專注與科技創業者聊「真問題」。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av无码一区二区三区四区| 免费人成在线观看网站| 全免费毛片在线播放| 亚洲AV天天做在线观看| 久久久精品视频免费观看 | 成人免费视频一区二区三区| 国产免费黄色大片| 图图资源网亚洲综合网站| 久久99免费视频| 亚洲AV无码乱码在线观看裸奔 | 妞干网在线免费视频| 亚洲1234区乱码| 成人午夜大片免费7777| 亚洲av永久无码精品网址| 国产麻豆免费观看91| 日韩色日韩视频亚洲网站| 亚洲毛片不卡av在线播放一区| 久久久久亚洲AV无码专区体验| 足恋玩丝袜脚视频免费网站| 国产一区二区三区在线免费观看| www亚洲精品久久久乳| 亚洲精品无码专区久久同性男| 中文字幕无线码免费人妻| 亚洲国产日韩一区高清在线 | 成人免费观看男女羞羞视频| 五月婷婷综合免费| 亚洲日韩精品无码AV海量| 国产精成人品日日拍夜夜免费| 亚洲黄色在线观看| a级毛片无码免费真人久久| 国产免费人成视频在线观看| 一个人看的免费观看日本视频www| 久久久久久久综合日本亚洲 | 国产无遮挡色视频免费视频| 青青青视频免费观看| 国产成人啪精品视频免费网| 国产福利在线观看永久免费| 亚洲午夜视频在线观看| 国产麻豆免费观看91| 国产成人精品免费久久久久| 亚洲av永久无码一区二区三区|