張俊林拆解o1:OpenAI o1原理逆向工程圖解
AIGC動態(tài)歡迎閱讀
原標題:張俊林拆解o1:OpenAI o1原理逆向工程圖解
關(guān)鍵字:模型,能力,邏輯推理,狀態(tài),概率
文章來源:Founder Park
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新浪微博機器學(xué)習(xí)團隊 AI Lab 負責(zé)人張俊林,針對OpenAI o1原理進行逆向工程圖解。
原貼:https://zhuanlan.zhihu.com/p/721952915OpenAI o1的推出稱為橫空出世不為過,盡管關(guān)于Q*、草莓等各種傳聞很久了,用了強化學(xué)習(xí)增強邏輯推理能力這個大方向大家猜的也八九不離十,但是融合LLM和RL來生成Hidden COT,估計很少人能想到這點,而且目前看效果確實挺好的。
OpenAI奔向Close的路上越走越遠,你要從o1官宣字面來看,除了“強化學(xué)習(xí)生成Hidden COT”外,基本找不到其它有技術(shù)含量的內(nèi)容。Sora好歹還給出了個粗略的技術(shù)框架圖,字里行間也透漏不少隱含的技術(shù)點,細心點總能發(fā)現(xiàn)很多蛛絲馬跡,串起來之后整個背后的技術(shù)就若隱若現(xiàn)。而且,盡管目前有不少公開文獻在用LLM+RL增強大模型的推理能力,但幾乎找不到做Hidden COT生成的工作,所以可供直接參考的內(nèi)容非常少,這為分析o1進一步增添了難度。
那是否就沒辦法了呢?倒也不一定,如果多觀察細節(jié),再加上一些專業(yè)性的推論,我覺得還是有痕跡可循的。本文以相對容易理解的方式來對o1做些
原文鏈接:張俊林拆解o1:OpenAI o1原理逆向工程圖解
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...