耗資1.3萬,ASU團隊揭秘o1推理王者!碾壓所有LLM成本超高,關鍵還會PUA

AIGC動態(tài)歡迎閱讀
原標題:耗資1.3萬,ASU團隊揭秘o1推理王者!碾壓所有LLM成本超高,關鍵還會PUA
關鍵字:模型,測試,實例,性能,問題
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:桃子 好困
【新智元導讀】LLM不會規(guī)劃,大推理模型o1可以嗎?ASU團隊最新研究發(fā)現(xiàn),o1-preview推理規(guī)劃能力是所有模型之最,但仍未觸及天花板。關鍵是,推理強,成本超高。LLM依然不會規(guī)劃,LRM可以嗎?
OpenAI聲稱,草莓o1已經(jīng)突破了自回歸LLM常規(guī)限制,成為一種新型的「大推理模型」(LRM)。
它能夠基于強化學習,通過CoT多步推理。并且,這種推理過程的代價,是高昂的。
來自ASU研究人員以此為契機,全面評估了當前LLM和新型LRM,在測試基準PlanBench上表現(xiàn)。
論文地址:https://arxiv.org/pdf/2409.13373
PlanBench是他們在22年提出,評估大模型規(guī)劃能力的測試基準。
在最新測試中,研究人員發(fā)現(xiàn),o1-preview表現(xiàn)出色,大幅領先其他模型,但也未完全通過PlanBench基準測試。
其他LLM,在Mystery Blocksworld上的性能都不過5%。在基準上的結果曲線,和X軸幾乎融合。
足見,這些大模型的規(guī)劃能力,非常地弱。
不過,作者指出,規(guī)劃推理越長,o1-preview的準確率便會低于25
原文鏈接:耗資1.3萬,ASU團隊揭秘o1推理王者!碾壓所有LLM成本超高,關鍵還會PUA
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...

粵公網(wǎng)安備 44011502001135號