AIGC動態歡迎閱讀
原標題:OpenAI o1 self-play RL 技術路線推演
關鍵字:模型,方式,知乎,侵權,能力
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
導讀文章轉載自知乎,作者為曹宇,本文對train-time compute和test-time compute相關技術上可能的技術路線進行了推演,在整體思路上還原OpenAI o1的訓練及推理時整體技術路徑。原文地址:https://zhuanlan.zhihu.com/p/720106482
本文只做學術/技術分享,如有侵權,聯系刪文。OpenAI的self-play RL新模型o1最近交卷,直接引爆了關于對于self-play的討論。在數理推理領域獲得了傲人的成績,同時提出了train-time compute和test-time compute兩個全新的RL scaling law。作為領域博主,在時效性方面肯定卷不過其他營銷號了,所以這次準備了大概一萬字的內容,徹底深入分析并推演一遍其中的相關技術細節。01o1,而今邁步從頭越首先要說一下,o1是一個多模態模型,很多人包括 Jim Fan都忽略了這一點:因此他繼續叫做o,作為omni系列是沒有任何疑問的。只不過這次發布是過于低調了,很多人都沒有注意到這個拉爆了所有其他多模態框架的78.1分。那么這個o1,說明這個技術路線就是一個
原文鏈接:OpenAI o1 self-play RL 技術路線推演
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...