AIGC動態歡迎閱讀
原標題:OpenAI o1 技術初探1:整體框架,利用Test-Time Scaling Law提升邏輯推理能力
關鍵字:模型,報告,解讀,方法,數據
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
前段日子OpenAI推出的o1模型,以其提升顯著的邏輯推理能力,引發了人們對它背后訓練方法的熱烈討論。關于o1的介紹和輸出結果demo,這里就不再贅述,大家可以去openai的官網上閱讀(很短,讀起來很快,因為秘密都藏好了)。我相信最近的一段時間里,當大家在網上探索o1是如何訓練時,肯定會看到以下幾個熱點詞:
Test/Inference-Time scaling law,通過增加推理階段的算力提升模型的推理能力
Post Training,通過后訓練提升模型的推理能力
PRM/ORM:基于過程/結果的獎勵模型
CoT:思維鏈
強化學習、self-play(自我博弈)與MCTS(蒙特卡洛搜索樹算法)
等等。
當這些詞單個出現在我們面前時,我們似乎很難把他們串在一起。不僅如此,我們也不知道單個詞背后的原理,比如“什么是test/inference-time scaling law”?什么叫把算力花在推理階段?為什么把算力花在推理階段就有更好的結果?它和post training又是什么關系?諸如此類,令人很難在腦海里想象出完整的流程圖。
在我對o1的探索期間,我參考了這個github倉庫
原文鏈接:OpenAI o1 技術初探1:整體框架,利用Test-Time Scaling Law提升邏輯推理能力
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...