全面超越CoT!Meta田淵棟團(tuán)隊(duì)新作:連續(xù)思維鏈
原標(biāo)題:全面超越CoT!Meta田淵棟團(tuán)隊(duì)新作:連續(xù)思維鏈
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):5433字
Meta田淵棟團(tuán)隊(duì)提出新型LLM推理范式:連續(xù)思維鏈(Coconut)
Meta田淵棟團(tuán)隊(duì)近期發(fā)表論文,提出了一種名為Coconut(Chain of Continuous Thought)的新型大語(yǔ)言模型 (LLM) 推理范式,旨在提升LLM在推理任務(wù)中的性能和效率。該方法的核心思想是摒棄傳統(tǒng)的基于人類語(yǔ)言的思維鏈 (CoT),直接在連續(xù)的潛在空間中進(jìn)行推理,從而避免了語(yǔ)言表達(dá)的低效性和局限性。
連續(xù)思維鏈的核心思想
傳統(tǒng)的CoT方法將推理過(guò)程轉(zhuǎn)化為人類可理解的語(yǔ)言步驟,這在實(shí)際應(yīng)用中效率低下。Coconut則直接利用LLM的中間狀態(tài)進(jìn)行自回歸推理,只在最終輸出答案時(shí)才轉(zhuǎn)換為人類語(yǔ)言。這種方法避免了在語(yǔ)言空間中進(jìn)行推理的低效性,并允許模型在潛在空間中進(jìn)行更、更有效的推理。
Coconut的優(yōu)勢(shì)
與CoT相比,Coconut在性能上不相上下,但在token數(shù)量上減少了好幾倍,顯著提升了推理效率。這是因?yàn)镃oconut避免了將推理過(guò)程轉(zhuǎn)化為人類語(yǔ)言的冗余步驟,直接在潛在空間中進(jìn)行推理。 此外,連續(xù)思維鏈允許模型同時(shí)編碼多個(gè)可能的后續(xù)步驟,類似于廣度優(yōu)先搜索 (BFS),從而能夠探索更多可能的推理路徑,并逐步消除錯(cuò)誤的選項(xiàng)。
Coconut的訓(xùn)練過(guò)程
Coconut采用多階段訓(xùn)練策略,利用語(yǔ)言CoT數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)。初始階段,模型在常規(guī)CoT實(shí)例上進(jìn)行訓(xùn)練。后續(xù)階段,逐漸用連續(xù)思維替換CoT中的語(yǔ)言推理步驟。訓(xùn)練過(guò)程中,模型優(yōu)化負(fù)對(duì)數(shù)似然損失,但屏蔽了問(wèn)題和潛在思維的損失,鼓勵(lì)模型學(xué)習(xí)更有效的推理步驟表示。連續(xù)思維的完全可微性允許進(jìn)行端到端優(yōu)化。
實(shí)驗(yàn)結(jié)果與分析
研究人員在三個(gè)數(shù)據(jù)集(GSM8k、ProntoQA和ProsQA)上進(jìn)行了實(shí)驗(yàn),結(jié)果表明Coconut在ProntoQA和ProsQA數(shù)據(jù)集上表現(xiàn)出優(yōu)于CoT的性能,同時(shí)保持了高效率。實(shí)驗(yàn)還分析了不同推理方法的準(zhǔn)確性、推理效率以及“幻覺(jué)”和“錯(cuò)誤目標(biāo)”的發(fā)生率,結(jié)果表明連續(xù)思維鏈能夠有效提升規(guī)劃能力,減少錯(cuò)誤。
未來(lái)展望
盡管Coconut的訓(xùn)練效率仍有優(yōu)化空間,但其提出的連續(xù)潛在空間推理范式為L(zhǎng)LM的推理能力提升提供了新的方向。未來(lái)研究可以進(jìn)一步優(yōu)化訓(xùn)練過(guò)程,探索更有效的連續(xù)思維表示方法,以及在更多復(fù)雜任務(wù)中應(yīng)用該方法。
總而言之,Coconut代表了LLM推理范式的一次重要革新,它通過(guò)在連續(xù)潛在空間中進(jìn)行推理,顯著提升了LLM的推理效率和性能,為未來(lái)LLM的發(fā)展提供了新的思路。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。