走向技術(shù)“暗面”。
原標(biāo)題:在可以 RL 的地方,將迎來更多「李世石時刻」
文章來源:特工宇宙
內(nèi)容字數(shù):3892字
強化學(xué)習(xí)引領(lǐng)LLM新紀元:Kimi k1.5的突破與AGI的曙光
人工智能領(lǐng)域正經(jīng)歷著前所未有的快速發(fā)展,大型語言模型(LLM)的進步尤為引人注目。而強化學(xué)習(xí)(RL),作為訓(xùn)練LLM的關(guān)鍵方法,正扮演著越來越重要的角色。本文將深入探討國內(nèi)團隊Kimi在RL-LLM方向取得的突破性進展,以及其對AGI發(fā)展帶來的啟示。
Kimi k1.5:簡潔高效的RL框架
受到AlphaGo等AI里程碑式成就的啟發(fā),Kimi團隊另辟蹊徑,采用了一種簡單而有效的RL框架和訓(xùn)練方式,成功打造出多模態(tài)能力達到o1水平的Kimi k1.5模型。不同于復(fù)雜的蒙特卡洛樹搜索(MCTS)和過程獎勵模型(PRM),Kimi巧妙地利用提示工程構(gòu)建CoT軌跡,進行輕量級的SFT預(yù)熱,并通過創(chuàng)新的Partial rollouts技術(shù)提升訓(xùn)練效率,實現(xiàn)模型在訓(xùn)練過程中復(fù)用之前的軌跡片段,從而節(jié)省大量計算資源。
超越SOTA:短鏈和長鏈思維的雙重突破
Kimi k1.5在短鏈?zhǔn)剿季S(short-CoT)模式下,顯著超越了GPT-4o和Claude 3.5 Sonnet等全球領(lǐng)先的短思考模型,在數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力方面展現(xiàn)出強大的優(yōu)勢。更令人驚嘆的是,在長鏈?zhǔn)剿季S(long-CoT)模式下,k1.5的表現(xiàn)已達到OpenAI o1正式版的水平。這標(biāo)志著在短鏈和長鏈思維兩個方向上,Kimi都取得了突破性的進展。
長鏈?zhǔn)剿季S的涌現(xiàn):解決數(shù)據(jù)難題
Kimi團隊的另一個重要發(fā)現(xiàn)是,模型在RL訓(xùn)練過程中,性能提升的同時,token數(shù)量也會自然增加,這意味著長鏈?zhǔn)剿季S(CoT)可以在RL訓(xùn)練過程中涌現(xiàn)出來。這解決了困擾業(yè)界已久的難題:如何獲取大量的長鏈?zhǔn)剿季S數(shù)據(jù)。Kimi和DeepSeek團隊在同日發(fā)布的技術(shù)報告,相互驗證了這一結(jié)論,標(biāo)志著在長鏈?zhǔn)剿季S數(shù)據(jù)獲取問題上取得了里程碑式的進展。
大道至簡:賦能模型自主探索
Kimi的成功并非依賴于復(fù)雜的算法,而是秉持著“大道至簡”的理念。通過賦予模型一個可衡量的目標(biāo),并允許其自主探索和犯錯,Kimi讓模型能夠像人一樣地思考,從而展現(xiàn)出強大的學(xué)習(xí)和解決問題的能力。這為未來的LLM發(fā)展提供了新的思路。
k1.5的額外亮點:long2short技術(shù)和混合部署框架
除了核心RL框架,Kimi k1.5還包含了long2short技術(shù)和訓(xùn)練推理混合部署框架。long2short技術(shù)通過模型合并和DPO等技術(shù),將長鏈?zhǔn)剿季S模型中學(xué)習(xí)到的思維先驗轉(zhuǎn)移到短鏈?zhǔn)剿季S模型中,提升模型效率。而混合部署框架則能高效共享和管理資源,提升訓(xùn)練推理性能。
AGI的曙光:持續(xù)迭代與未來展望
Kimi k1.5是Kimi團隊連續(xù)第三個月發(fā)布的k系列強化學(xué)習(xí)模型升級版本,展現(xiàn)了其在AGI探索道路上的持續(xù)努力。這一突破性進展不僅推動了LLM技術(shù)的快速發(fā)展,也為AGI的實現(xiàn)帶來了新的希望。我們有理由相信,隨著技術(shù)的不斷迭代,AI將在更多領(lǐng)域超越人類,為人類社會帶來福祉。
正如文中所言,我們正步入一個新的時代,需要新的范式。一小群對技術(shù)充滿熱情的年輕人,正在用他們的努力,改變著世界,推動著人工智能技術(shù)不斷進步,最終造福人類。
聯(lián)系作者
文章來源:特工宇宙
作者微信:
作者簡介:Agent Universe,專注于智能體的AI科技媒體。