從 Kimi K0-Math 到 DeepSeek R1 Lite:探索 OpenAI O1 模型的奇幻旅程
熱點(diǎn)討論:OpenAI O1 類模型的復(fù)現(xiàn)~

原標(biāo)題:探索 OpenAI O1 模型復(fù)現(xiàn):從 Kimi K0-Math 到 DeepSeek R1 Lite
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):2918字
2024中國生成式AI大會(上海站)預(yù)告
根據(jù)大會預(yù)告,2024中國生成式AI大會(上海站)將于12月5日至6日舉行。此次大會由智猩猩共同主辦,預(yù)計(jì)將吸引30多位行業(yè)嘉賓參與演講,包括北大(臨港)大模型對齊中心執(zhí)行主任徐驊、騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心負(fù)責(zé)人吳賢等。大會歡迎各界人士報(bào)名參加,具體信息可通過知乎賬號初七123334查詢。
O1類模型復(fù)現(xiàn)的技術(shù)討論
近期,隨著Kimi K0-Math和DeepSeek R1 Lite模型的發(fā)布,O1類模型的復(fù)現(xiàn)成為技術(shù)討論的焦點(diǎn)。筆者發(fā)起的開源項(xiàng)目“Awesome-LLM-Strawberry”專注于收集O1模型復(fù)現(xiàn)方案及相關(guān)論文、博客與項(xiàng)目,目前已獲得5000多顆星標(biāo)。該項(xiàng)目旨在為研究者提供一個(gè)資源庫,促進(jìn)O1模型的進(jìn)一步探討與復(fù)現(xiàn)。
O1模型的訓(xùn)練與推理階段
在O1模型的訓(xùn)練階段,潛在的復(fù)現(xiàn)策略可分為三個(gè)階段:
- 階段0:Continue pretrain – 通過大量的Cot、代碼和數(shù)學(xué)類數(shù)據(jù)提升基礎(chǔ)推理能力。
- 階段1:SFT訓(xùn)練 – 學(xué)習(xí)超長Chain-of-Thought(CoT)生成和反思等指令格式,為后續(xù)訓(xùn)練打下基礎(chǔ)。
- 階段2:基于強(qiáng)化學(xué)習(xí)的CoT推理/反思能力強(qiáng)化 – 包括大規(guī)模RLHF與高質(zhì)量數(shù)學(xué)代碼類數(shù)據(jù)結(jié)合的方案。
在推理階段,O1類模型可能采取的實(shí)現(xiàn)方式包括:
- 方案1:超長CoT + 加反思的思維鏈 – 實(shí)現(xiàn)簡單,適合流式推理,如DeepSeek R1 Lite模型展現(xiàn)的推理能力。
- 方案2:MCTS – 雖然推理效果上限可能更高,但實(shí)現(xiàn)復(fù)雜,計(jì)算效率較低。
總結(jié)與展望
總體來看,O1模型復(fù)現(xiàn)的探索仍在持續(xù)中,Kimi K0-Math與DeepSeek R1 Lite的出現(xiàn)為社區(qū)提供了寶貴的經(jīng)驗(yàn)與參考。無論是在訓(xùn)練階段的創(chuàng)新數(shù)據(jù)處理方法,還是推理階段的多樣化策略,每種方案都展現(xiàn)了獨(dú)特的優(yōu)勢與挑戰(zhàn)。期待未來能有更多優(yōu)秀的開源模型推動這一領(lǐng)域的創(chuàng)新與發(fā)展。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。

粵公網(wǎng)安備 44011502001135號