單靠推理Scaling Law無法成就o1!無限推理token,GPT-4o依然完敗
AIGC動態(tài)歡迎閱讀
原標(biāo)題:單靠推理Scaling Law無法成就o1!無限推理token,GPT-4o依然完敗
關(guān)鍵字:報告,模型,準(zhǔn)確率,性能,方法
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:編輯部 HXY
【新智元導(dǎo)讀】o1的秘訣,和全新的「推理Scaling Law」關(guān)系有多大?Epoch AI最近的對比實驗表明,算法創(chuàng)新才是關(guān)鍵。CoT鑄就了o1推理王者。
它開創(chuàng)了一種推理scaling新范式——隨著算力增加、更長響應(yīng)時間,o1性能也隨之增長。
這一點,為AI scaling開辟了新的可能性。
既然如此,若是將o1這一訓(xùn)練過程直接應(yīng)用到所有LLM中,豈不皆是「推理王者」。
然而,研究機構(gòu)Epoch AI發(fā)現(xiàn),結(jié)果并不是這樣的。
單純的擴展推理計算,根本不能彌合o1-preview和GPT-4o之間的差距。他們稱,「雖然o1使用了逐步推理方法訓(xùn)練,但其性能改進(jìn),可能還存在其他的因素」。
o1的秘訣是什么?上周,在o1-preview和o1-mini發(fā)布之后,Epoch AI研究人員開啟了GPT-4o和o1-preview對比實驗。
他們選擇了一個具有挑戰(zhàn)性的基準(zhǔn)測試GPQA進(jìn)行評估,其中包含STEM領(lǐng)域研究生級別的多項選擇題,而且考慮到模型的隨機性進(jìn)行了多次運行。
結(jié)果發(fā)現(xiàn)o1-preview的性能遠(yuǎn)遠(yuǎn)好于GPT-4o,比Claude 3.5 Sonn
原文鏈接:單靠推理Scaling Law無法成就o1!無限推理token,GPT-4o依然完敗
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: