單靠推理Scaling Law無法成就o1！無限推理token，GPT-4o依然完敗

AIGC動態(tài)歡迎閱讀

原標(biāo)題：單靠推理Scaling Law無法成就o1！無限推理token，GPT-4o依然完敗
關(guān)鍵字：報告,模型,準(zhǔn)確率,性能,方法
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報道編輯：編輯部 HXY
【新智元導(dǎo)讀】o1的秘訣，和全新的「推理Scaling Law」關(guān)系有多大？Epoch AI最近的對比實驗表明，算法創(chuàng)新才是關(guān)鍵。CoT鑄就了o1推理王者。
它開創(chuàng)了一種推理scaling新范式——隨著算力增加、更長響應(yīng)時間，o1性能也隨之增長。
這一點，為AI scaling開辟了新的可能性。
既然如此，若是將o1這一訓(xùn)練過程直接應(yīng)用到所有LLM中，豈不皆是「推理王者」。
然而，研究機構(gòu)Epoch AI發(fā)現(xiàn)，結(jié)果并不是這樣的。
單純的擴展推理計算，根本不能彌合o1-preview和GPT-4o之間的差距。他們稱，「雖然o1使用了逐步推理方法訓(xùn)練，但其性能改進(jìn)，可能還存在其他的因素」。
o1的秘訣是什么？上周，在o1-preview和o1-mini發(fā)布之后，Epoch AI研究人員開啟了GPT-4o和o1-preview對比實驗。
他們選擇了一個具有挑戰(zhàn)性的基準(zhǔn)測試GPQA進(jìn)行評估，其中包含STEM領(lǐng)域研究生級別的多項選擇題，而且考慮到模型的隨機性進(jìn)行了多次運行。
結(jié)果發(fā)現(xiàn)o1-preview的性能遠(yuǎn)遠(yuǎn)好于GPT-4o，比Claude 3.5 Sonn

原文鏈接：單靠推理Scaling Law無法成就o1！無限推理token，GPT-4o依然完敗