Reverse-o1:OpenAI o1原理逆向工程圖解

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布智猩猩GenAI

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Reverse-o1:OpenAI o1原理逆向工程圖解
關(guān)鍵字：模型,能力,邏輯推理,狀態(tài),概率
文章來(lái)源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

大會(huì)預(yù)告12月5日-6日，2024中國(guó)生成式AI大會(huì)（上海站）舉辦。將邀請(qǐng)50+位嘉賓圍繞大模型、AI Infra、端側(cè)生成式AI、AI視頻生成和具身智能等議題進(jìn)行同臺(tái)分享和討論。歡迎報(bào)名或購(gòu)票。導(dǎo)讀作者為張俊林
原文來(lái)自知乎，地址：https://zhuanlan.zhihu.com/p/721952915
本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。OpenAI o1的推出稱為橫空出世不為過(guò)，盡管關(guān)于Q*、草莓等各種傳聞很久了，用了強(qiáng)化學(xué)習(xí)增強(qiáng)邏輯推理能力這個(gè)大方向大家猜的也八九不離十，但是融合LLM和RL來(lái)生成HiddenCOT，估計(jì)很少人能想到這點(diǎn)，而且目前看效果確實(shí)挺好的。
OpenAI奔向Close的路上越走越遠(yuǎn)，你要從o1官宣字面來(lái)看，除了“強(qiáng)化學(xué)習(xí)生成Hidden COT”外，基本找不到其它有技術(shù)含量的內(nèi)容。Sora好歹還給出了個(gè)粗略的技術(shù)框架圖，字里行間也透漏不少隱含的技術(shù)點(diǎn)，細(xì)心點(diǎn)總能發(fā)現(xiàn)很多蛛絲馬跡，串起來(lái)之后整個(gè)背后的技術(shù)就若隱若現(xiàn)。而且，盡管目前有不少公開(kāi)文獻(xiàn)在用LLM+RL增強(qiáng)大模型的推理能力，但幾乎找不到做Hidden COT生成的工作，所以可供直接參考的

原文鏈接：Reverse-o1:OpenAI o1原理逆向工程圖解