CoT神話破滅,并非LLM標(biāo)配!三大學(xué)府機(jī)構(gòu)聯(lián)手證實(shí),CoT僅在數(shù)學(xué)符號(hào)推理有用

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:CoT神話破滅,并非LLM標(biāo)配!三大學(xué)府機(jī)構(gòu)聯(lián)手證實(shí),CoT僅在數(shù)學(xué)符號(hào)推理有用
關(guān)鍵字:性能,任務(wù),符號(hào),數(shù)據(jù),模型
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子
【新智元導(dǎo)讀】CoT只對(duì)數(shù)學(xué)、符號(hào)推理才起作用,其他的任務(wù)幾乎沒什么卵用!這是來自UT-Austin、霍普金斯、普林斯頓三大機(jī)構(gòu)研究人員聯(lián)手,分析了100+篇論文14類任務(wù)得出的結(jié)論。看來,CoT并非是所有大模型標(biāo)配。谷歌CoT開山之作,再次成為OpenAI o1模型的利器。
LLM復(fù)雜推理能力的實(shí)現(xiàn),就離不開一步一步思考,但是這種「思考」究竟對(duì)于什么類型的任務(wù)有幫助呢?
來自UT-Austin、霍普金斯、普林斯頓的研究人員,使用CoT對(duì)100多篇論文,進(jìn)行了定量元分析。
論文地址:https://arxiv.org/abs/2409.12183
同時(shí),他們還對(duì)14個(gè)模型的20個(gè)數(shù)據(jù)集,進(jìn)行了評(píng)估。
結(jié)果顯示,CoT在涉及數(shù)學(xué)、邏輯任務(wù)中,能夠增強(qiáng)LLM性能,但在其他類型任務(wù)上,收益較小。
在MMLU中,除非問題或模型回答中包含“=”(表示符號(hào)運(yùn)算和推理),否則直接生成答案,而不使用CoT,能達(dá)到與使用CoT相同的準(zhǔn)確率。
基于這一發(fā)現(xiàn),作者通過分離「規(guī)劃」和「執(zhí)行」,并工具增強(qiáng)的LLM進(jìn)行比較,來分析CoT在這些任務(wù)中的行為。
結(jié)果證實(shí),CoT的大部分收益,來
原文鏈接:CoT神話破滅,并非LLM標(biāo)配!三大學(xué)府機(jī)構(gòu)聯(lián)手證實(shí),CoT僅在數(shù)學(xué)符號(hào)推理有用
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)