研究實錘：別讓大模型「想」太多，OpenAI o1準確率竟下降36.3%

AIGC動態歡迎閱讀

原標題：研究實錘：別讓大模型「想」太多，OpenAI o1準確率竟下降36.3%
關鍵字：模型,任務,人類,提示,性能
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說分享來源 | 阮文韻思維鏈（CoT）已被證明可以在許多任務（如多步驟推理）上顯著提升大模型的性能。然而，在哪些情況下，CoT 會系統性地降低大模型的性能，這仍然是一個有待進一步討論的問題。
如今，來自普林斯頓大學和紐約大學的研究團隊，參照思考對“人類性能”的影響，提出了新的見解。
他們認為，雖然模型的認知過程與人類的認知過程并不完全相同，但可以參照思考對人類“性能”產生負面影響的情況，假定思考會對模型產生負面影響的環境。
他們從心理學中選擇了 6 項已被充分研究的任務類型來探討 CoT 對 LLM 性能的影響，并驗證了 CoT 在一些任務中甚至可能導致模型準確率下降。
這一發現不僅為未來優化 LLM 的提示策略提供了新思路，還為理解人類與模型在推理過程中的相似性與差異性帶來了新見解。
論文鏈接：https://arxiv.org/abs/2410.21333
研究表明，CoT 并非在所有任務中都能提高模型性能，在隱性統計學習、面部識別、含例外模式的數據分類三種情況下，各種 SOTA 模型的性能都會明顯下降。此外，研究本身進一步揭示了通過人類心理學研究大模型的可行性。
研究

原文鏈接：研究實錘：別讓大模型「想」太多，OpenAI o1準確率竟下降36.3%