OpenAI o1技術(shù)初探3:如何讓模型擁有自我糾錯(cuò)的能力
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI o1技術(shù)初探3:如何讓模型擁有自我糾錯(cuò)的能力
關(guān)鍵字:模型,問(wèn)題,方法,結(jié)點(diǎn),動(dòng)作
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
在這個(gè)系列之前的文章中:
我們探索了o1(可能基于test-time scaling law)做的基本框架。
以及框架中的一塊積木(靠純inference優(yōu)化來(lái)增強(qiáng)邏輯推理能力,我們分別列舉了“PRM+some search methods”以及“MCTS”兩種方法,本質(zhì)上來(lái)說(shuō)這兩種都是MCTS-style的評(píng)估-搜索方法)在這篇文章中,我們來(lái)探索另一塊更好玩的積木:“o1是如何擁有自我糾錯(cuò)的能力的?”。在下文中,我會(huì)基于自己的猜想,把o1的這種self-correction的能力與基于強(qiáng)化學(xué)習(xí)的post-training過(guò)程,以及我們上篇中所說(shuō)的MCTS過(guò)程串起來(lái)。同樣,這也是我在閱讀相關(guān)論文,及觀察o1輸出結(jié)果demo后給出的自己的猜想,具有強(qiáng)主觀性,大家選擇性閱讀。
01o1 demo中體現(xiàn)的自我糾錯(cuò)能力在openai o1官網(wǎng)的例子中(https://openai.com/index/learning-to-reason-with-llms/),當(dāng)我們展開(kāi)模型回復(fù)結(jié)果里thought for xx seconds選項(xiàng)時(shí),我們可以看見(jiàn)模型在推理過(guò)程中的整個(gè)思維鏈過(guò)程,這時(shí)我們會(huì)發(fā)
原文鏈接:OpenAI o1技術(shù)初探3:如何讓模型擁有自我糾錯(cuò)的能力
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: