邁向復(fù)現(xiàn) OpenAI o1 的一小步：Steiner 開源模型階段性進展報告

AIGC動態(tài)1年前 (2024)發(fā)布智猩猩GenAI

AIGC動態(tài)歡迎閱讀

原標(biāo)題：邁向復(fù)現(xiàn) OpenAI o1 的一小步：Steiner 開源模型階段性進展報告
關(guān)鍵字：模型,知乎,侵權(quán),數(shù)據(jù),線性
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

講座預(yù)告11月1日上午10點，南開大學(xué)在讀博士李森茂，將以《基于擴散模型編碼器模塊的推理加速》為主題進行直播講解，歡迎掃名~導(dǎo)讀作者為季逸超
原文來自知乎，地址：https://zhuanlan.zhihu.com/p/2340089725
本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。從 OpenAI o1 發(fā)布以來，我就把復(fù)現(xiàn) o1 作為業(yè)余時間的興趣項目，其過程中獲得了很多有趣的知識與洞察 (與失敗)。考慮到個人能力、精力、財力有限，我很可能不是走到最后的選手，因此我覺得很有必要將這些價值數(shù)十張 H100 的經(jīng)驗及時分享出來。本文算是這系列文章的第二篇。
本文的英文版同步發(fā)表于：https://medium.com/@peakji/a-small-step-towards-reproducing-openai-o1-b9a756a00855
01TL;DRSteiner 是一個 reasoning 模型，能在推理時以自回歸的形式探索多種路徑，并在必要時自主進行驗證或回溯。訓(xùn)練過程分為三個步驟：首先，通過隨機截斷合成的 reasoning path 并進行引導(dǎo)式再補全，將每個樣本

原文鏈接：邁向復(fù)現(xiàn) OpenAI o1 的一小步：Steiner 開源模型階段性進展報告