淺談OpenAI最新發(fā)布的o1大模型：RL深度思考，技術(shù)差距拉開

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布智猩猩GenAI

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：淺談OpenAI最新發(fā)布的o1大模型：RL深度思考，技術(shù)差距拉開
關(guān)鍵字：知乎,模型,奧林匹克,思維,能力
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

openai放大招了，是奧特曼在推上宣傳了很久的草莓真身，這次它真的來了。又給大家?guī)硪稽c(diǎn)小小的震撼，國內(nèi)大模型老板們也不再迷茫了，4o的多模態(tài)的還沒趕上呢，這下怎么又回到純文本了，不是說大家都搞得差不多了嗎？
奧特曼表示，雖然 o1 的表現(xiàn)仍然存在缺陷，不過你在第一次使用它的時(shí)候仍然會(huì)感到震撼。這對(duì)從業(yè)者絕對(duì)是一件大好事，老板們發(fā)現(xiàn)餅還比較大，還可以讓資本繼續(xù)投錢，百萬洗數(shù)據(jù)槽工衣食所系！
直接延長了從愚昧之巔到絕望之谷的到來。01OpenAI o1到底有多強(qiáng)？這次發(fā)布的大模型主要針對(duì)的任務(wù)是復(fù)雜任務(wù)推理，比如競(jìng)賽難度的編程問題，奧賽難度的數(shù)學(xué)問題等。并且效果得到了極大的提升，大概從高中生提升到了博士生。比如寫代碼的水平：該模型在 2024 年國際信息學(xué)奧林匹克競(jìng)賽（IOI）賽題上得到了 213 分，達(dá)到了排名前 49% 的水平。在最難的數(shù)學(xué)，code，物理化學(xué)生物等benchmark上遙遙領(lǐng)先。在全美高中生數(shù)學(xué)競(jìng)賽AIME上，o1能達(dá)到74分（GPT4-o僅有12分），如果采樣1000次，結(jié)合reward model加權(quán)投票能到93分，能排進(jìn)全國前500名，超過USA Mathem