耗資1.3萬，ASU團隊揭秘o1推理王者！碾壓所有LLM成本超高，關鍵還會PUA

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：耗資1.3萬，ASU團隊揭秘o1推理王者！碾壓所有LLM成本超高，關鍵還會PUA
關鍵字：模型,測試,實例,性能,問題
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：桃子好困
【新智元導讀】LLM不會規(guī)劃，大推理模型o1可以嗎？ASU團隊最新研究發(fā)現(xiàn)，o1-preview推理規(guī)劃能力是所有模型之最，但仍未觸及天花板。關鍵是，推理強，成本超高。LLM依然不會規(guī)劃，LRM可以嗎？
OpenAI聲稱，草莓o1已經(jīng)突破了自回歸LLM常規(guī)限制，成為一種新型的「大推理模型」（LRM）。
它能夠基于強化學習，通過CoT多步推理。并且，這種推理過程的代價，是高昂的。
來自ASU研究人員以此為契機，全面評估了當前LLM和新型LRM，在測試基準PlanBench上表現(xiàn)。
論文地址：https://arxiv.org/pdf/2409.13373
PlanBench是他們在22年提出，評估大模型規(guī)劃能力的測試基準。
在最新測試中，研究人員發(fā)現(xiàn)，o1-preview表現(xiàn)出色，大幅領先其他模型，但也未完全通過PlanBench基準測試。
其他LLM，在Mystery Blocksworld上的性能都不過5%。在基準上的結果曲線，和X軸幾乎融合。
足見，這些大模型的規(guī)劃能力，非常地弱。
不過，作者指出，規(guī)劃推理越長，o1-preview的準確率便會低于25

原文鏈接：耗資1.3萬，ASU團隊揭秘o1推理王者！碾壓所有LLM成本超高，關鍵還會PUA