AIGC動態歡迎閱讀
原標題:OpenAI o1技術初探3:如何讓模型擁有自我糾錯的能力
關鍵字:模型,問題,方法,結點,動作
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
在這個系列之前的文章中:
我們探索了o1(可能基于test-time scaling law)做的基本框架。
以及框架中的一塊積木(靠純inference優化來增強邏輯推理能力,我們分別列舉了“PRM+some search methods”以及“MCTS”兩種方法,本質上來說這兩種都是MCTS-style的評估-搜索方法)在這篇文章中,我們來探索另一塊更好玩的積木:“o1是如何擁有自我糾錯的能力的?”。在下文中,我會基于自己的猜想,把o1的這種self-correction的能力與基于強化學習的post-training過程,以及我們上篇中所說的MCTS過程串起來。同樣,這也是我在閱讀相關論文,及觀察o1輸出結果demo后給出的自己的猜想,具有強主觀性,大家選擇性閱讀。
01o1 demo中體現的自我糾錯能力在openai o1官網的例子中(https://openai.com/index/learning-to-reason-with-llms/),當我們展開模型回復結果里thought for xx seconds選項時,我們可以看見模型在推理過程中的整個思維鏈過程,這時我們會發
原文鏈接:OpenAI o1技術初探3:如何讓模型擁有自我糾錯的能力
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...