OpenAI o1 技術(shù)初探2:使用MCTS增強推理能力(基于代碼實踐的解讀)
AIGC動態(tài)歡迎閱讀
原標題:OpenAI o1 技術(shù)初探2:使用MCTS增強推理能力(基于代碼實踐的解讀)
關(guān)鍵字:結(jié)點,答案,報告,問題,模型
文章來源:智猩猩GenAI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
在o1的整體框架篇中(https://zhuanlan.zhihu.com/p/773907223),我們從現(xiàn)有開源的論文和代碼中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技術(shù)實現(xiàn)路徑,如下圖:這里對于這張框架圖我們不再做贅述,詳情可以參見上面《框架篇》的文章鏈接。
我們之前說過,這是一張高度抽象的框架圖,旨在說明o1官方技術(shù)報告中提到的“把更多算力花在inference階段上,以提升模型的邏輯推理能力”的含義。而從本文開始,我們將以具體的算法去擴展這張框架圖的細節(jié)。
今天我們要具體擴展的,就是框架圖中的Inference部分(黃色塊),從框架圖可知,Inference部分一般有兩個作用:
作用1:直接對inference過程進行優(yōu)化,具體的優(yōu)化方法例如:
PRM + some search methods。其中PRM表示我們額外訓(xùn)練的、用于評估“模型中間步驟”而不是“模型答案結(jié)果”的獎勵模型。我們在框架篇中給過使用這種優(yōu)化方法的具體例子,這里不再贅述
MCTS(Monte Carlo Tree Searc
原文鏈接:OpenAI o1 技術(shù)初探2:使用MCTS增強推理能力(基于代碼實踐的解讀)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...