單靠推理Scaling Law無(wú)法成就o1!無(wú)限推理token,GPT-4o依然完敗
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:?jiǎn)慰客评鞸caling Law無(wú)法成就o1!無(wú)限推理token,GPT-4o依然完敗
關(guān)鍵字:報(bào)告,模型,準(zhǔn)確率,性能,方法
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部 HXY
【新智元導(dǎo)讀】o1的秘訣,和全新的「推理Scaling Law」關(guān)系有多大?Epoch AI最近的對(duì)比實(shí)驗(yàn)表明,算法創(chuàng)新才是關(guān)鍵。CoT鑄就了o1推理王者。
它開(kāi)創(chuàng)了一種推理scaling新范式——隨著算力增加、更長(zhǎng)響應(yīng)時(shí)間,o1性能也隨之增長(zhǎng)。
這一點(diǎn),為AI scaling開(kāi)辟了新的可能性。
既然如此,若是將o1這一訓(xùn)練過(guò)程直接應(yīng)用到所有LLM中,豈不皆是「推理王者」。
然而,研究機(jī)構(gòu)Epoch AI發(fā)現(xiàn),結(jié)果并不是這樣的。
單純的擴(kuò)展推理計(jì)算,根本不能彌合o1-preview和GPT-4o之間的差距。他們稱(chēng),「雖然o1使用了逐步推理方法訓(xùn)練,但其性能改進(jìn),可能還存在其他的因素」。
o1的秘訣是什么?上周,在o1-preview和o1-mini發(fā)布之后,Epoch AI研究人員開(kāi)啟了GPT-4o和o1-preview對(duì)比實(shí)驗(yàn)。
他們選擇了一個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試GPQA進(jìn)行評(píng)估,其中包含STEM領(lǐng)域研究生級(jí)別的多項(xiàng)選擇題,而且考慮到模型的隨機(jī)性進(jìn)行了多次運(yùn)行。
結(jié)果發(fā)現(xiàn)o1-preview的性能遠(yuǎn)遠(yuǎn)好于GPT-4o,比Claude 3.5 Sonn
原文鏈接:單靠推理Scaling Law無(wú)法成就o1!無(wú)限推理token,GPT-4o依然完敗
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: