OpenAI o1技術(shù)初探3：如何讓模型擁有自我糾錯(cuò)的能力

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：OpenAI o1技術(shù)初探3：如何讓模型擁有自我糾錯(cuò)的能力
關(guān)鍵字：模型,問(wèn)題,方法,結(jié)點(diǎn),動(dòng)作
文章來(lái)源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

在這個(gè)系列之前的文章中：
我們探索了o1（可能基于test-time scaling law）做的基本框架。
以及框架中的一塊積木（靠純inference優(yōu)化來(lái)增強(qiáng)邏輯推理能力，我們分別列舉了“PRM+some search methods”以及“MCTS”兩種方法，本質(zhì)上來(lái)說(shuō)這兩種都是MCTS-style的評(píng)估-搜索方法）在這篇文章中，我們來(lái)探索另一塊更好玩的積木：“o1是如何擁有自我糾錯(cuò)的能力的？”。在下文中，我會(huì)基于自己的猜想，把o1的這種self-correction的能力與基于強(qiáng)化學(xué)習(xí)的post-training過(guò)程，以及我們上篇中所說(shuō)的MCTS過(guò)程串起來(lái)。同樣，這也是我在閱讀相關(guān)論文，及觀察o1輸出結(jié)果demo后給出的自己的猜想，具有強(qiáng)主觀性，大家選擇性閱讀。
01o1 demo中體現(xiàn)的自我糾錯(cuò)能力在openai o1官網(wǎng)的例子中（https://openai.com/index/learning-to-reason-with-llms/），當(dāng)我們展開(kāi)模型回復(fù)結(jié)果里thought for xx seconds選項(xiàng)時(shí)，我們可以看見(jiàn)模型在推理過(guò)程中的整個(gè)思維鏈過(guò)程，這時(shí)我們會(huì)發(fā)

原文鏈接：OpenAI o1技術(shù)初探3：如何讓模型擁有自我糾錯(cuò)的能力