AIGC動態歡迎閱讀
原標題:慢思考準確率反降30%!普林斯頓揭示思維鏈某些任務上失效的秘密
關鍵字:模型,人類,任務,提示,參與者
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI o1徹底帶火慢思考和思維鏈(CoT)方法,但CoT在某些任務上反而會降低模型表現。
比如給生造的詞分類任務,GPT-4在zero-shot提示下的準確率高達94%,換成CoT的準確率卻到64.4%。
內置CoT的o1-preview準確率更是只有57.7%。
CoT究竟會“搞砸”哪些任務,在學術界仍是一個懸而未決的問題。
現在,普林斯頓計算機系與心理系合作,確定了其中一些任務的特征:人類深思熟慮或被要求解釋自己的思路時,也會降低在這些任務上的表現。
新論文“一步一步想,但小心腳下”已上傳到arXiv。
心理學探索思維鏈掉鏈子原因為了縮小要探索的范圍,團隊在CoT提示和人類進行語言思考之間進行了類比。
大模型和人類具能力有著根本不同,因此影響表現的約束因素也不同。如大模型的上下文長度很長,遠遠超出了人類的記憶限制。
因此,團隊預計CoT將在以下情況下損害模型性能:
(i) 深思熟慮會損害人類的表現(ii) 影響人類在任務上表現的約束條件,可以普遍性地推廣到大模型。
在實驗中,選擇了心理學文獻中的6項任務,其中隱式統
原文鏈接:慢思考準確率反降30%!普林斯頓揭示思維鏈某些任務上失效的秘密
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...