Kimi技術(shù)大牛復(fù)盤:k1.5復(fù)現(xiàn)o1的思考過程
這里想和大家分享一下o1復(fù)現(xiàn)的一些關(guān)鍵思考過程。

原標(biāo)題:Kimi技術(shù)大牛復(fù)盤:k1.5復(fù)現(xiàn)o1的思考過程
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):7066字
Flood Sung:o1復(fù)現(xiàn)的關(guān)鍵思考過程
本文是Flood Sung對(duì)o1復(fù)現(xiàn)過程的思考總結(jié),分享了其Long Chain of Thoughts (Long CoT) 的關(guān)鍵步驟和思考。文章的核心在于如何訓(xùn)練模型像人一樣思考,最終實(shí)現(xiàn)AGI。
1. Long CoT 的有效性與反思
o1發(fā)布后效果震撼,其Long CoT的有效性引發(fā)了作者的反思。作者回憶起一年多前Tim @周昕宇的實(shí)驗(yàn),使用小型模型訓(xùn)練幾十位加減乘除運(yùn)算,并將其合成Long CoT數(shù)據(jù)進(jìn)行SFT,取得了顯著效果。這驗(yàn)證了Long Context的重要性,但當(dāng)時(shí)由于成本和速度的考量,Long CoT并未被優(yōu)先考慮。
2. 訓(xùn)練模型思考的關(guān)鍵
為了理解o1的工作機(jī)制,作者分析了o1官網(wǎng)的例子,發(fā)現(xiàn)其可以犯錯(cuò),并通過反思和嘗試改進(jìn)。o1的思考方式靈活多樣,包括重述問題、聯(lián)想和分治等。Noam Brown和Hyung Won Chung的OpenAI視頻為作者提供了重要啟示:Noam Brown強(qiáng)調(diào)了Test-Time Search的重要性,指出模型需要自行搜索;Hyung Won Chung強(qiáng)調(diào)“Don’t Teach,Incentivize”,指出人為添加結(jié)構(gòu)化inductive bias會(huì)限制模型能力,Agentic Workflow只有短期價(jià)值。作者由此得出結(jié)論:需要訓(xùn)練模型像人一樣思考。
3. 基于精確Reward的RL訓(xùn)練
Noam Brown的PPT強(qiáng)調(diào)了進(jìn)行精確Reward的RL訓(xùn)練的重要性,避免Reward Model的限制。作者指出,RL的性能完全取決于Reward,而以往的RLHF由于Human Preference難以精準(zhǔn)建模,容易出現(xiàn)Reward hacking。因此,作者選擇使用具有標(biāo)準(zhǔn)答案的數(shù)學(xué)和代碼題作為訓(xùn)練數(shù)據(jù)。
作者分析了o1的訓(xùn)練過程,認(rèn)為其實(shí)際上是“In Context RL with Self-Critique”,將完整的trajectory作為message輸入模型。模型在Long CoT下進(jìn)行next token prediction,學(xué)習(xí)解決問題,其輸出軌跡包含一系列action和reward。由于模型自我反思,難以精確估計(jì)每個(gè)step的value,作者最終選擇將問題建模為Contextual Bandit問題,使用REINFORCE的變種進(jìn)行訓(xùn)練。訓(xùn)練過程中,模型的token數(shù)會(huì)隨著性能提升而增加,這是RL訓(xùn)練過程中模型涌現(xiàn)的能力。
4. AGI近在眼前
作者總結(jié)了整個(gè)思考過程,認(rèn)為通過RL訓(xùn)練LLM進(jìn)行Long CoT解題,并通過Contextual Bandit解決value估計(jì)難題,最終實(shí)現(xiàn)了o1的復(fù)現(xiàn)。作者相信AGI近在眼前,未來的發(fā)展方向是將這種方法應(yīng)用到更復(fù)雜的場(chǎng)景中,例如模擬駕駛、內(nèi)容創(chuàng)作和應(yīng)用開發(fā)等。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

粵公網(wǎng)安備 44011502001135號(hào)