張俊林拆解o1：OpenAI o1原理逆向工程圖解

AIGC動態(tài)1年前 (2024)發(fā)布 Founder Park

AIGC動態(tài)歡迎閱讀

原標(biāo)題：張俊林拆解o1：OpenAI o1原理逆向工程圖解
關(guān)鍵字：模型,能力,邏輯推理,狀態(tài),概率
文章來源：Founder Park
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新浪微博機(jī)器學(xué)習(xí)團(tuán)隊 AI Lab 負(fù)責(zé)人張俊林，針對OpenAI o1原理進(jìn)行逆向工程圖解。
原貼：https://zhuanlan.zhihu.com/p/721952915OpenAI o1的推出稱為橫空出世不為過，盡管關(guān)于Q*、草莓等各種傳聞很久了，用了強(qiáng)化學(xué)習(xí)增強(qiáng)邏輯推理能力這個大方向大家猜的也八九不離十，但是融合LLM和RL來生成Hidden COT，估計很少人能想到這點，而且目前看效果確實挺好的。
OpenAI奔向Close的路上越走越遠(yuǎn)，你要從o1官宣字面來看，除了“強(qiáng)化學(xué)習(xí)生成Hidden COT”外，基本找不到其它有技術(shù)含量的內(nèi)容。Sora好歹還給出了個粗略的技術(shù)框架圖，字里行間也透漏不少隱含的技術(shù)點，細(xì)心點總能發(fā)現(xiàn)很多蛛絲馬跡，串起來之后整個背后的技術(shù)就若隱若現(xiàn)。而且，盡管目前有不少公開文獻(xiàn)在用LLM+RL增強(qiáng)大模型的推理能力，但幾乎找不到做Hidden COT生成的工作，所以可供直接參考的內(nèi)容非常少，這為分析o1進(jìn)一步增添了難度。
那是否就沒辦法了呢？倒也不一定，如果多觀察細(xì)節(jié)，再加上一些專業(yè)性的推論，我覺得還是有痕跡可循的。本文以相對容易理解的方式來對o1做些

原文鏈接：張俊林拆解o1：OpenAI o1原理逆向工程圖解