OpenAI o1 技術(shù)初探2：使用MCTS增強推理能力（基于代碼實踐的解讀）

AIGC動態(tài)歡迎閱讀

原標題：OpenAI o1 技術(shù)初探2：使用MCTS增強推理能力（基于代碼實踐的解讀）
關(guān)鍵字：結(jié)點,答案,報告,問題,模型
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

在o1的整體框架篇中（https://zhuanlan.zhihu.com/p/773907223），我們從現(xiàn)有開源的論文和代碼中（https://github.com/hijkzzz/Awesome-LLM-Strawberry），抽象出了o1可能的技術(shù)實現(xiàn)路徑，如下圖：這里對于這張框架圖我們不再做贅述，詳情可以參見上面《框架篇》的文章鏈接。
我們之前說過，這是一張高度抽象的框架圖，旨在說明o1官方技術(shù)報告中提到的“把更多算力花在inference階段上，以提升模型的邏輯推理能力”的含義。而從本文開始，我們將以具體的算法去擴展這張框架圖的細節(jié)。
今天我們要具體擴展的，就是框架圖中的Inference部分（黃色塊），從框架圖可知，Inference部分一般有兩個作用：
作用1：直接對inference過程進行優(yōu)化，具體的優(yōu)化方法例如：
PRM + some search methods。其中PRM表示我們額外訓(xùn)練的、用于評估“模型中間步驟”而不是“模型答案結(jié)果”的獎勵模型。我們在框架篇中給過使用這種優(yōu)化方法的具體例子，這里不再贅述
MCTS（Monte Carlo Tree Searc

原文鏈接：OpenAI o1 技術(shù)初探2：使用MCTS增強推理能力（基于代碼實踐的解讀）