邁向復(fù)現(xiàn) OpenAI o1 的一小步:Steiner 開源模型階段性進展報告

AIGC動態(tài)歡迎閱讀
原標(biāo)題:邁向復(fù)現(xiàn) OpenAI o1 的一小步:Steiner 開源模型階段性進展報告
關(guān)鍵字:模型,知乎,侵權(quán),數(shù)據(jù),線性
文章來源:智猩猩GenAI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
講座預(yù)告11月1日上午10點,南開大學(xué)在讀博士李森茂,將以《基于擴散模型編碼器模塊的推理加速》為主題進行直播講解,歡迎掃名~導(dǎo)讀作者為季逸超
原文來自知乎,地址:https://zhuanlan.zhihu.com/p/2340089725
本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。從 OpenAI o1 發(fā)布以來,我就把復(fù)現(xiàn) o1 作為業(yè)余時間的興趣項目,其過程中獲得了很多有趣的知識與洞察 (與失敗)。考慮到個人能力、精力、財力有限,我很可能不是走到最后的選手,因此我覺得很有必要將這些價值數(shù)十張 H100 的經(jīng)驗及時分享出來。本文算是這系列文章的第二篇。
本文的英文版同步發(fā)表于:https://medium.com/@peakji/a-small-step-towards-reproducing-openai-o1-b9a756a00855
01TL;DRSteiner 是一個 reasoning 模型,能在推理時以自回歸的形式探索多種路徑,并在必要時自主進行驗證或回溯。訓(xùn)練過程分為三個步驟:首先,通過隨機截斷合成的 reasoning path 并進行引導(dǎo)式再補全,將每個樣本
原文鏈接:邁向復(fù)現(xiàn) OpenAI o1 的一小步:Steiner 開源模型階段性進展報告
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號