全面增強(qiáng)LLM推理/規(guī)劃/執(zhí)行力!北航提出全新「內(nèi)置CoT」思考方法

原標(biāo)題:全面增強(qiáng)LLM推理/規(guī)劃/執(zhí)行力!北航提出全新「內(nèi)置CoT」思考方法
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):12548字
基于內(nèi)置思維鏈的思考方法:增強(qiáng)大型語(yǔ)言模型的推理和規(guī)劃能力
大型語(yǔ)言模型(LLM)如ChatGPT和Llama-3-chat已成為流行的對(duì)象,但在多輪對(duì)話中,LLM 回答容易出錯(cuò),且錯(cuò)誤率隨對(duì)話輪數(shù)增加而增大。 這主要是因?yàn)長(zhǎng)LM缺乏像人類一樣的思考能力,包括推理、規(guī)劃和執(zhí)行計(jì)劃的能力。為了解決這些問(wèn)題,國(guó)內(nèi)學(xué)者提出了一種基于內(nèi)置思維鏈的思考方法,并取得了顯著成果。
1. 內(nèi)置思維鏈的思考方法
該方法的核心在于,對(duì)于每個(gè)用戶提示,LLM 基于會(huì)話歷史、上下文、行動(dòng)調(diào)用、記憶和知識(shí)等五個(gè)要素進(jìn)行詳細(xì)的推理和規(guī)劃,并根據(jù)計(jì)劃執(zhí)行行動(dòng)。整個(gè)思考過(guò)程(思維鏈)以特殊詞元包裹,內(nèi)置于模型的響應(yīng)中。
2. 增強(qiáng)思考能力的策略
論文探討了兩種增強(qiáng)LLM思考能力的策略:
有監(jiān)督學(xué)習(xí)微調(diào): 基于提出的思考方法收集訓(xùn)練數(shù)據(jù)集,通過(guò)監(jiān)督學(xué)習(xí)微調(diào)基礎(chǔ)語(yǔ)言模型,獲得初始策略。
強(qiáng)化學(xué)習(xí)微調(diào): 訓(xùn)練一個(gè)一致性獎(jiǎng)勵(lì)模型,并將其用作獎(jiǎng)勵(lì)函數(shù),通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步微調(diào)LLM,使其更傾向于按照該思考方法輸出。
3. 一致性獎(jiǎng)勵(lì)模型的創(chuàng)新
為了評(píng)估多輪對(duì)話中模型輸出的質(zhì)量,論文創(chuàng)新性地引入了“一致性獎(jiǎng)勵(lì)模型”。該模型判斷模型輸出響應(yīng)序列的一致性,有效提升了強(qiáng)化訓(xùn)練的效果,克服了傳統(tǒng)人類偏好獎(jiǎng)勵(lì)模型準(zhǔn)確性不高的問(wèn)題。
4. 局部思考上下文機(jī)制
為了解決傳統(tǒng)系統(tǒng)上下文占用窗口長(zhǎng)度、限制工具調(diào)用數(shù)量以及推理速度慢等問(wèn)題,論文提出了“局部思考上下文”機(jī)制。該機(jī)制按需加載背景信息和工具,支持無(wú)限數(shù)量的工具調(diào)用,提高了效率和靈活性。
5. 行動(dòng)調(diào)用機(jī)制
論文采用“行動(dòng)調(diào)用”機(jī)制來(lái)實(shí)現(xiàn)模型與環(huán)境的交互。與函數(shù)調(diào)用或工具調(diào)用相比,行動(dòng)調(diào)用語(yǔ)法更優(yōu)雅,效率更高。行動(dòng)調(diào)用使用JSON結(jié)構(gòu)定義,包含名稱、描述、參數(shù)和異常處理等信息。
6. 實(shí)驗(yàn)結(jié)果與結(jié)論
實(shí)驗(yàn)結(jié)果表明,基于內(nèi)置思維鏈的思考方法顯著增強(qiáng)了LLM的推理、規(guī)劃和執(zhí)行計(jì)劃的能力。與基線模型相比,該方法在行動(dòng)任務(wù)完成率方面取得了顯著提升。行動(dòng)調(diào)用也證明了其在語(yǔ)法優(yōu)雅性和效率方面的優(yōu)勢(shì)。
7. 局限性和未來(lái)方向
論文也指出了該方法的局限性,例如收集思考上下文和構(gòu)建一致性數(shù)據(jù)集的難度,以及一致性獎(jiǎng)勵(lì)模型泛化能力的不足。未來(lái)的研究方向包括大規(guī)模強(qiáng)化學(xué)習(xí)、改進(jìn)策略采樣和強(qiáng)化訓(xùn)練方法,以及探索更有效的思考上下文收集策略。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)