OpenAI o1 技術初探1：整體框架，利用Test-Time Scaling Law提升邏輯推理能力

AIGC動態1年前 (2024)發布智猩猩GenAI

AIGC動態歡迎閱讀

原標題：OpenAI o1 技術初探1：整體框架，利用Test-Time Scaling Law提升邏輯推理能力
關鍵字：模型,報告,解讀,方法,數據
文章來源：智猩猩GenAI
內容字數：0字

內容摘要：

前段日子OpenAI推出的o1模型，以其提升顯著的邏輯推理能力，引發了人們對它背后訓練方法的熱烈討論。關于o1的介紹和輸出結果demo，這里就不再贅述，大家可以去openai的官網上閱讀（很短，讀起來很快，因為秘密都藏好了）。我相信最近的一段時間里，當大家在網上探索o1是如何訓練時，肯定會看到以下幾個熱點詞：
Test/Inference-Time scaling law，通過增加推理階段的算力提升模型的推理能力
Post Training，通過后訓練提升模型的推理能力
PRM/ORM：基于過程/結果的獎勵模型
CoT：思維鏈
強化學習、self-play（自我博弈）與MCTS（蒙特卡洛搜索樹算法）
等等。
當這些詞單個出現在我們面前時，我們似乎很難把他們串在一起。不僅如此，我們也不知道單個詞背后的原理，比如“什么是test/inference-time scaling law”？什么叫把算力花在推理階段？為什么把算力花在推理階段就有更好的結果？它和post training又是什么關系？諸如此類，令人很難在腦海里想象出完整的流程圖。
在我對o1的探索期間，我參考了這個github倉庫

原文鏈接：OpenAI o1 技術初探1：整體框架，利用Test-Time Scaling Law提升邏輯推理能力