慢思考準(zhǔn)確率反降30%!普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

AIGC動態(tài)歡迎閱讀
原標(biāo)題:慢思考準(zhǔn)確率反降30%!普林斯頓揭示思維鏈某些任務(wù)上失效的秘密
關(guān)鍵字:模型,人類,任務(wù),提示,參與者
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI o1徹底帶火慢思考和思維鏈(CoT)方法,但CoT在某些任務(wù)上反而會降低模型表現(xiàn)。
比如給生造的詞分類任務(wù),GPT-4在zero-shot提示下的準(zhǔn)確率高達94%,換成CoT的準(zhǔn)確率卻到64.4%。
內(nèi)置CoT的o1-preview準(zhǔn)確率更是只有57.7%。
CoT究竟會“搞砸”哪些任務(wù),在學(xué)術(shù)界仍是一個懸而未決的問題。
現(xiàn)在,普林斯頓計算機系與心理系合作,確定了其中一些任務(wù)的特征:人類深思熟慮或被要求解釋自己的思路時,也會降低在這些任務(wù)上的表現(xiàn)。
新論文“一步一步想,但小心腳下”已上傳到arXiv。
心理學(xué)探索思維鏈掉鏈子原因為了縮小要探索的范圍,團隊在CoT提示和人類進行語言思考之間進行了類比。
大模型和人類具能力有著根本不同,因此影響表現(xiàn)的約束因素也不同。如大模型的上下文長度很長,遠遠超出了人類的記憶限制。
因此,團隊預(yù)計CoT將在以下情況下?lián)p害模型性能:
(i) 深思熟慮會損害人類的表現(xiàn)(ii) 影響人類在任務(wù)上表現(xiàn)的約束條件,可以普遍性地推廣到大模型。
在實驗中,選擇了心理學(xué)文獻中的6項任務(wù),其中隱式統(tǒng)
原文鏈接:慢思考準(zhǔn)確率反降30%!普林斯頓揭示思維鏈某些任務(wù)上失效的秘密
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號