北大對齊團隊獨家解讀：OpenAI o1開啟「后訓練」時代強化學習新范式

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：北大對齊團隊獨家解讀：OpenAI o1開啟「后訓練」時代強化學習新范式
關鍵字：模型,過程,能力,任務,數據
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.comOpenAI o1 在數學、代碼、長程規劃等問題取得顯著的進步。一部分業內人士分析其原因是由于構建足夠龐大的邏輯數據集，再加上類似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足夠的計算量用于搜索，總可以搜到最后的正確路徑。然而，這樣只是建立起問題和答案之間的更好的聯系，如何泛化到更復雜的問題場景，技術遠不止這么簡單。AlphaGo 是強化學習在圍棋領域中的一大成功，成功擊敗了當時的世界冠軍。早在去年，Deepmind 的 CEO Demis Hassabis 便強調用 Tree Search 來增強模型的推理能力。根據相關人士推測，o1 的模型訓練數據截止到去年十月份，而有關 Q * 的爆料大約是去年 11 月

原文鏈接：北大對齊團隊獨家解讀：OpenAI o1開啟「后訓練」時代強化學習新范式