AIGC動態歡迎閱讀
原標題:最強 OpenAI o1 邏輯推理正確率僅 50%!清華、智譜推出「大模型邏輯推理新基準」
關鍵字:模型,規則,步驟,答案,難度
文章來源:人工智能學家
內容字數:0字
內容摘要:
9.11 和 9.9 哪個大?
這一連人類幼兒園兒童都能回答的問題,曾經(至今)難倒了眾多大語言模型(LLM)。然而,要想達到通用人工智能(AGI)的水平,LLM 不僅要完成“比大小”這種簡單的邏輯推理,還需要完成難度更高的推理,比如“對復雜規則的理解與執行以及多步驟規劃”,這是 LLM 智能體(agent)和決策系統的核心能力。
因此,如何有效評估 LLM 作為基于規則的執行者和規劃者角色,至關重要。但是,目前學界和業界少有這方面的研究。
來自清華大學和智譜的研究團隊推出了一項新的基準測試——LogicGame,旨在全面評估 LLM 在規則理解、執行和規劃方面的能力。先看評測結果:圖|LogicGame 的評測結果和樣例展示。上圖為各種模型在執行和規劃類別中的表現;下圖(左、右)分別為兩個執行和規劃類別案例研究。
除了看到 o1-preview、o-mini 的遙遙領先,我們也看到超過一半的模型得分不到 10%,如上圖紅域所示。
這一評測結果揭示了一個不容忽視的事實:大多數 LLM 在基于規則的邏輯推理上都存在著明顯的缺陷。
相關研究論文以“LogicGame: Benchmar
原文鏈接:最強 OpenAI o1 邏輯推理正確率僅 50%!清華、智譜推出「大模型邏輯推理新基準」
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...