張俊林詳細拆解o1：OpenAI o1完整訓練過程逆向推演

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：張俊林詳細拆解o1：OpenAI o1完整訓練過程逆向推演
關鍵字：模型,能力,邏輯推理,狀態,概率
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說分享來源 | 張俊林@知乎新浪微博機器學習團隊 AI Lab 負責人張俊林，對OpenAI o1原理進行了非常干貨的逆向工程圖解。知乎原貼：https://zhuanlan.zhihu.com/p/721952915
OpenAI o1的推出稱為橫空出世不為過，盡管關于Q*、草莓等各種傳聞很久了，用了強化學習增強邏輯推理能力這個大方向大家猜的也八九不離十，但是融合LLM和RL來生成Hidden COT，估計很少人能想到這點，而且目前看效果確實挺好的。
OpenAI奔向Close的路上越走越遠，你要從o1官宣字面來看，除了“強化學習生成Hidden COT”外，基本找不到其它有技術含量的內容。Sora好歹還給出了個粗略的技術框架圖，字里行間也透漏不少隱含的技術點，細心點總能發現很多蛛絲馬跡，串起來之后整個背后的技術就若隱若現（若對此感興趣可看下我之前寫的分析：技術神秘化的去魅：Sora關鍵技術逆向工程圖解。而且，盡管目前有不少公開文獻在用LLM+RL增強大模型的推理能力，但幾乎找不到做Hidden COT生成的工作，所以可供直接參考的內容非常少，這為分析o1進一步增添了難度

原文鏈接：張俊林詳細拆解o1：OpenAI o1完整訓練過程逆向推演