OpenAI o1 技術(shù)初探2:使用MCTS增強(qiáng)推理能力(基于代碼實(shí)踐的解讀)

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI o1 技術(shù)初探2:使用MCTS增強(qiáng)推理能力(基于代碼實(shí)踐的解讀)
關(guān)鍵字:結(jié)點(diǎn),答案,報(bào)告,問(wèn)題,模型
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
在o1的整體框架篇中(https://zhuanlan.zhihu.com/p/773907223),我們從現(xiàn)有開源的論文和代碼中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技術(shù)實(shí)現(xiàn)路徑,如下圖:這里對(duì)于這張框架圖我們不再做贅述,詳情可以參見(jiàn)上面《框架篇》的文章鏈接。
我們之前說(shuō)過(guò),這是一張高度抽象的框架圖,旨在說(shuō)明o1官方技術(shù)報(bào)告中提到的“把更多算力花在inference階段上,以提升模型的邏輯推理能力”的含義。而從本文開始,我們將以具體的算法去擴(kuò)展這張框架圖的細(xì)節(jié)。
今天我們要具體擴(kuò)展的,就是框架圖中的Inference部分(黃色塊),從框架圖可知,Inference部分一般有兩個(gè)作用:
作用1:直接對(duì)inference過(guò)程進(jìn)行優(yōu)化,具體的優(yōu)化方法例如:
PRM + some search methods。其中PRM表示我們額外訓(xùn)練的、用于評(píng)估“模型中間步驟”而不是“模型答案結(jié)果”的獎(jiǎng)勵(lì)模型。我們?cè)诳蚣芷薪o過(guò)使用這種優(yōu)化方法的具體例子,這里不再贅述
MCTS(Monte Carlo Tree Searc
原文鏈接:OpenAI o1 技術(shù)初探2:使用MCTS增強(qiáng)推理能力(基于代碼實(shí)踐的解讀)
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)