<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Kimi官方復盤:k1.5復現o1的思考過程

        AIGC動態8個月前發布 Founder Park
        437 0 0

        要讓模型自己探索思考范式。

        Kimi官方復盤:k1.5復現o1的思考過程

        原標題:Kimi官方復盤:k1.5復現o1的思考過程
        文章來源:Founder Park
        內容字數:7655字

        Kimi復現o1的關鍵技術思考:從Agentic Workflow到In Context RL with Self-Critique

        本文總結了Kimi技術人員在知乎上分享的復現OpenAI o1模型的關鍵技術思考過程。文章深入探討了模型思考模式的探索,從最初的Agentic Workflow到最終的In Context RL with Self-Critique方法,以及對AGI和ASI的展望。

        1. Agentic Workflow的局限性

        文章指出,雖然Long Context的重要性早被認識到,但由于Long CoT(Chain of Thought)成本高、速度慢,并未被優先考慮。然而,性能才是最重要的因素。 作者通過分析o1的特征(例如犯錯、反思、多種思考方法),結合Noam Brown和Hyung Won Chung的OpenAI視頻,以及Richard Sutton的“The Bitter Lesson”,意識到Long CoT的關鍵作用,并最終得出結論:Agentic Workflow 因為其結構化特性,會限制模型能力,只有短期價值,最終會被模型自身能力取代。

        2. o1的本質:In Context RL with Self-Critique

        Kimi團隊認為o1實際上是將in-context RL的完整軌跡作為一條信息進行訓練。模型在Long CoT下進行題目解答的過程,就是一個RL探索過程,其輸出軌跡可以表示為:s1,a1,r1,a2,r2,a3,r3,….. 其中a是解決方法(action),r是模型自我反思得到的獎勵(reward)。 文章強調了o1的“self-critique”(自我批判)能力,這使得價值評估變得復雜,因為模型的錯誤并非總是負面價值,知錯能改同樣重要。

        3. 訓練方法:基于REINFORCE的Contextual Bandit

        由于價值評估的復雜性,Kimi團隊放棄了傳統的PRM方法,轉而將問題簡化為Contextual Bandit問題,并使用REINFORCE的變種進行訓練。 簡單的說,就是模型做對題就加梯度,做錯題就減梯度,并加入一些技巧來穩定訓練過程。 一個令人驚喜的發現是:模型在RL訓練過程中會自主增加token數量,提升性能。

        4. 對AGI和ASI的展望

        文章最后總結了整個復現過程,并對AGI和ASI進行了展望。作者認為AGI近在眼前,而RL技術是實現AGI的關鍵,只需給AI一個可衡量的目標,讓其自行探索并通過RL提升即可。未來,這一過程將被復制到更復雜的場景中,例如模擬駕駛、內容創作、應用開發等,最終實現ASI。


        聯系作者

        文章來源:Founder Park
        作者微信:
        作者簡介:來自極客公園,專注與科技創業者聊「真問題」。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲综合久久成人69| 久久亚洲AV午夜福利精品一区| 亚洲婷婷综合色高清在线| 色播在线永久免费视频网站| 亚洲国产精品日韩| 在线精品自拍亚洲第一区| 日韩免费电影在线观看| 亚洲综合无码一区二区痴汉| 成年女人免费v片| 亚洲AV无码一区二区一二区| 日本高清免费不卡视频| 老妇激情毛片免费| 亚洲日韩中文字幕日韩在线| 三上悠亚在线观看免费| 久久精品国产精品亚洲艾| 91精品啪在线观看国产线免费| 亚洲综合激情九月婷婷| 91在线视频免费播放| 亚洲国产成人精品无码区花野真一| 日本免费电影一区| 特黄特色的大片观看免费视频| 亚洲中文字幕无码久久精品1| 免费日本一区二区| 亚洲精品在线播放视频| 成年性生交大片免费看| 午夜亚洲乱码伦小说区69堂| 国产av无码专区亚洲av果冻传媒| 久久精品免费电影| 亚洲精品福利你懂| 亚洲av午夜精品一区二区三区 | 免费人成大片在线观看播放电影 | 免费A级毛片无码A∨中文字幕下载| 亚洲午夜精品一区二区| 最近2019中文免费字幕| 免费一级毛片在线播放视频免费观看永久 | 又爽又高潮的BB视频免费看| 91在线免费视频| 亚洲国产超清无码专区| 亚洲а∨天堂久久精品| 三年片在线观看免费观看大全动漫| 在线综合亚洲中文精品|