原標題:全面增強LLM推理/規劃/執行力!北航提出全新「內置CoT」思考方法
文章來源:新智元
內容字數:12548字
基于內置思維鏈的思考方法:增強大型語言模型的推理和規劃能力
大型語言模型(LLM)如ChatGPT和Llama-3-chat已成為流行的對象,但在多輪對話中,LLM 回答容易出錯,且錯誤率隨對話輪數增加而增大。 這主要是因為LLM缺乏像人類一樣的思考能力,包括推理、規劃和執行計劃的能力。為了解決這些問題,國內學者提出了一種基于內置思維鏈的思考方法,并取得了顯著成果。
1. 內置思維鏈的思考方法
該方法的核心在于,對于每個用戶提示,LLM 基于會話歷史、上下文、行動調用、記憶和知識等五個要素進行詳細的推理和規劃,并根據計劃執行行動。整個思考過程(思維鏈)以特殊詞元包裹,內置于模型的響應中。
2. 增強思考能力的策略
論文探討了兩種增強LLM思考能力的策略:
有監督學習微調: 基于提出的思考方法收集訓練數據集,通過監督學習微調基礎語言模型,獲得初始策略。
強化學習微調: 訓練一個一致性獎勵模型,并將其用作獎勵函數,通過強化學習進一步微調LLM,使其更傾向于按照該思考方法輸出。
3. 一致性獎勵模型的創新
為了評估多輪對話中模型輸出的質量,論文創新性地引入了“一致性獎勵模型”。該模型判斷模型輸出響應序列的一致性,有效提升了強化訓練的效果,克服了傳統人類偏好獎勵模型準確性不高的問題。
4. 局部思考上下文機制
為了解決傳統系統上下文占用窗口長度、限制工具調用數量以及推理速度慢等問題,論文提出了“局部思考上下文”機制。該機制按需加載背景信息和工具,支持無限數量的工具調用,提高了效率和靈活性。
5. 行動調用機制
論文采用“行動調用”機制來實現模型與環境的交互。與函數調用或工具調用相比,行動調用語法更優雅,效率更高。行動調用使用JSON結構定義,包含名稱、描述、參數和異常處理等信息。
6. 實驗結果與結論
實驗結果表明,基于內置思維鏈的思考方法顯著增強了LLM的推理、規劃和執行計劃的能力。與基線模型相比,該方法在行動任務完成率方面取得了顯著提升。行動調用也證明了其在語法優雅性和效率方面的優勢。
7. 局限性和未來方向
論文也指出了該方法的局限性,例如收集思考上下文和構建一致性數據集的難度,以及一致性獎勵模型泛化能力的不足。未來的研究方向包括大規模強化學習、改進策略采樣和強化訓練方法,以及探索更有效的思考上下文收集策略。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。