原標題:全面超越CoT!Meta田淵棟團隊新作:連續思維鏈
文章來源:新智元
內容字數:5433字
Meta田淵棟團隊提出新型LLM推理范式:連續思維鏈(Coconut)
Meta田淵棟團隊近期發表論文,提出了一種名為Coconut(Chain of Continuous Thought)的新型大語言模型 (LLM) 推理范式,旨在提升LLM在推理任務中的性能和效率。該方法的核心思想是摒棄傳統的基于人類語言的思維鏈 (CoT),直接在連續的潛在空間中進行推理,從而避免了語言表達的低效性和局限性。
連續思維鏈的核心思想
傳統的CoT方法將推理過程轉化為人類可理解的語言步驟,這在實際應用中效率低下。Coconut則直接利用LLM的中間狀態進行自回歸推理,只在最終輸出答案時才轉換為人類語言。這種方法避免了在語言空間中進行推理的低效性,并允許模型在潛在空間中進行更、更有效的推理。
Coconut的優勢
與CoT相比,Coconut在性能上不相上下,但在token數量上減少了好幾倍,顯著提升了推理效率。這是因為Coconut避免了將推理過程轉化為人類語言的冗余步驟,直接在潛在空間中進行推理。 此外,連續思維鏈允許模型同時編碼多個可能的后續步驟,類似于廣度優先搜索 (BFS),從而能夠探索更多可能的推理路徑,并逐步消除錯誤的選項。
Coconut的訓練過程
Coconut采用多階段訓練策略,利用語言CoT數據進行監督學習。初始階段,模型在常規CoT實例上進行訓練。后續階段,逐漸用連續思維替換CoT中的語言推理步驟。訓練過程中,模型優化負對數似然損失,但屏蔽了問題和潛在思維的損失,鼓勵模型學習更有效的推理步驟表示。連續思維的完全可微性允許進行端到端優化。
實驗結果與分析
研究人員在三個數據集(GSM8k、ProntoQA和ProsQA)上進行了實驗,結果表明Coconut在ProntoQA和ProsQA數據集上表現出優于CoT的性能,同時保持了高效率。實驗還分析了不同推理方法的準確性、推理效率以及“幻覺”和“錯誤目標”的發生率,結果表明連續思維鏈能夠有效提升規劃能力,減少錯誤。
未來展望
盡管Coconut的訓練效率仍有優化空間,但其提出的連續潛在空間推理范式為LLM的推理能力提升提供了新的方向。未來研究可以進一步優化訓練過程,探索更有效的連續思維表示方法,以及在更多復雜任務中應用該方法。
總而言之,Coconut代表了LLM推理范式的一次重要革新,它通過在連續潛在空間中進行推理,顯著提升了LLM的推理效率和性能,為未來LLM的發展提供了新的思路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。