AIGC動態歡迎閱讀
原標題:北大對齊團隊最新解讀:OpenAI o1開啟「后訓練」時代強化學習新范式
關鍵字:模型,過程,能力,任務,數據
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
文章轉載自公眾號:機器之心,本文只做學術/技術分享,如有侵權,聯系刪文。
OpenAI o1 在數學、代碼、長程規劃等問題取得顯著的進步。一部分業內人士分析其原因是由于構建足夠龐大的邏輯數據集 ,再加上類似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足夠的計算量用于搜索,總可以搜到最后的正確路徑。然而,這樣只是建立起問題和答案之間的更好的聯系,如何泛化到更復雜的問題場景,技術遠不止這么簡單。AlphaGo 是強化學習在圍棋領域中的一大成功,成功擊敗了當時的世界冠軍。早在去年,Deepmind 的 CEO Demis Hassabis 便強調用 Tree Search 來增強模型的推理能力。根據相關人士推測,o1 的模型訓練數據截止到去年十月份,而有關 Q * 的爆料大約是去年 11 月,這似乎展示 o1 的訓練中也用到了 TreeSearch 的技巧。
實際上,OpenAI o1 運用的技術關鍵還是在于強化學習的搜索與學習機制,基于LLM 已有的推理能力,迭代式的 Bootstrap 模型產生合理推理過程(Rationales) 的能力,
原文鏈接:北大對齊團隊最新解讀:OpenAI o1開啟「后訓練」時代強化學習新范式
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...