全面增強LLM推理/規劃/執行力！北航提出全新「內置CoT」思考方法

原標題：全面增強LLM推理/規劃/執行力！北航提出全新「內置CoT」思考方法
文章來源：新智元
內容字數：12548字

基于內置思維鏈的思考方法：增強大型語言模型的推理和規劃能力

大型語言模型(LLM)如ChatGPT和Llama-3-chat已成為流行的對象，但在多輪對話中，LLM 回答容易出錯，且錯誤率隨對話輪數增加而增大。這主要是因為LLM缺乏像人類一樣的思考能力，包括推理、規劃和執行計劃的能力。為了解決這些問題，國內學者提出了一種基于內置思維鏈的思考方法，并取得了顯著成果。

1. 內置思維鏈的思考方法

該方法的核心在于，對于每個用戶提示，LLM 基于會話歷史、上下文、行動調用、記憶和知識等五個要素進行詳細的推理和規劃，并根據計劃執行行動。整個思考過程（思維鏈）以特殊詞元包裹，內置于模型的響應中。

2. 增強思考能力的策略

論文探討了兩種增強LLM思考能力的策略：

有監督學習微調： 基于提出的思考方法收集訓練數據集，通過監督學習微調基礎語言模型，獲得初始策略。
強化學習微調： 訓練一個一致性獎勵模型，并將其用作獎勵函數，通過強化學習進一步微調LLM，使其更傾向于按照該思考方法輸出。

3. 一致性獎勵模型的創新

為了評估多輪對話中模型輸出的質量，論文創新性地引入了“一致性獎勵模型”。該模型判斷模型輸出響應序列的一致性，有效提升了強化訓練的效果，克服了傳統人類偏好獎勵模型準確性不高的問題。

4. 局部思考上下文機制

為了解決傳統系統上下文占用窗口長度、限制工具調用數量以及推理速度慢等問題，論文提出了“局部思考上下文”機制。該機制按需加載背景信息和工具，支持無限數量的工具調用，提高了效率和靈活性。

5. 行動調用機制

論文采用“行動調用”機制來實現模型與環境的交互。與函數調用或工具調用相比，行動調用語法更優雅，效率更高。行動調用使用JSON結構定義，包含名稱、描述、參數和異常處理等信息。

6. 實驗結果與結論

實驗結果表明，基于內置思維鏈的思考方法顯著增強了LLM的推理、規劃和執行計劃的能力。與基線模型相比，該方法在行動任務完成率方面取得了顯著提升。行動調用也證明了其在語法優雅性和效率方面的優勢。

7. 局限性和未來方向

論文也指出了該方法的局限性，例如收集思考上下文和構建一致性數據集的難度，以及一致性獎勵模型泛化能力的不足。未來的研究方向包括大規模強化學習、改進策略采樣和強化訓練方法，以及探索更有效的思考上下文收集策略。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # LLM推理規劃 # 內置思維鏈 # 北航CoT方法 # 增強LLM能力 # 認知推理能力

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

全面增強LLM推理/規劃/執行力！北航提出全新「內置CoT」思考方法

基于內置思維鏈的思考方法：增強大型語言模型的推理和規劃能力

1. 內置思維鏈的思考方法

2. 增強思考能力的策略

3. 一致性獎勵模型的創新

4. 局部思考上下文機制

5. 行動調用機制

6. 實驗結果與結論

7. 局限性和未來方向

聯系作者

月虧4億 vs 毛利545%：MaaS商業模式的羅生門｜甲子光年

朱松純：大模型為什么不是AGI？

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點