北大對齊團隊最新解讀：OpenAI o1開啟「后訓(xùn)練」時代強化學(xué)習(xí)新范式

AIGC動態(tài)1年前 (2024)發(fā)布智猩猩GenAI

AIGC動態(tài)歡迎閱讀

原標題：北大對齊團隊最新解讀：OpenAI o1開啟「后訓(xùn)練」時代強化學(xué)習(xí)新范式
關(guān)鍵字：模型,過程,能力,任務(wù),數(shù)據(jù)
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

文章轉(zhuǎn)載自公眾號：機器之心，本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。
OpenAI o1 在數(shù)學(xué)、代碼、長程規(guī)劃等問題取得顯著的進步。一部分業(yè)內(nèi)人士分析其原因是由于構(gòu)建足夠龐大的邏輯數(shù)據(jù)集，再加上類似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足夠的計算量用于搜索，總可以搜到最后的正確路徑。然而，這樣只是建立起問題和答案之間的更好的聯(lián)系，如何泛化到更復(fù)雜的問題場景，技術(shù)遠不止這么簡單。AlphaGo 是強化學(xué)習(xí)在圍棋領(lǐng)域中的一大成功，成功擊敗了當(dāng)時的世界冠軍。早在去年，Deepmind 的 CEO Demis Hassabis 便強調(diào)用 Tree Search 來增強模型的推理能力。根據(jù)相關(guān)人士推測，o1 的模型訓(xùn)練數(shù)據(jù)截止到去年十月份，而有關(guān) Q * 的爆料大約是去年 11 月，這似乎展示 o1 的訓(xùn)練中也用到了 TreeSearch 的技巧。
實際上，OpenAI o1 運用的技術(shù)關(guān)鍵還是在于強化學(xué)習(xí)的搜索與學(xué)習(xí)機制，基于LLM 已有的推理能力，迭代式的 Bootstrap 模型產(chǎn)生合理推理過程（Rationales) 的能力，

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

北大對齊團隊最新解讀：OpenAI o1開啟「后訓(xùn)練」時代強化學(xué)習(xí)新范式

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

阿里通義萬相AI生視頻震撼上線！更懂中國風(fēng)的大模型來了

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？