如何提升大模型通用推理能力?DeepSeek最新論文《CODEI/O:通過(guò)代碼輸入輸出預(yù)測(cè)凝練推理模式》
原標(biāo)題:如何提升大模型通用推理能力?DeepSeek最新論文《CODEI/O:通過(guò)代碼輸入輸出預(yù)測(cè)凝練推理模式》
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):21537字
CODEI/O:提升大型語(yǔ)言模型推理能力的新方法
本文介紹了一種名為CODEI/O的新方法,旨在提升大型語(yǔ)言模型(LLMs)的推理能力。該方法的核心思想是將代碼轉(zhuǎn)換為代碼輸入/輸出預(yù)測(cè)格式,從而系統(tǒng)性地提煉代碼中固有的多樣化推理模式,并將其用于訓(xùn)練LLMs。
1. 推理能力提升的挑戰(zhàn)
雖然LLMs在某些特定領(lǐng)域(如數(shù)學(xué)和代碼生成)的推理能力有所提高,但由于許多其他推理任務(wù)的訓(xùn)練數(shù)據(jù)稀疏且碎片化,其性能提升仍然面臨挑戰(zhàn)。CODEI/O旨在解決這個(gè)問(wèn)題。
2. CODEI/O方法
CODEI/O通過(guò)以下步驟實(shí)現(xiàn)推理能力的提升:
- 收集原始代碼文件:從多個(gè)來(lái)源收集Python代碼文件,涵蓋廣泛的推理模式,包括CodeMix和PyEdu-R等。
- 轉(zhuǎn)換為統(tǒng)一格式:使用DeepSeek-V2.5將原始代碼文件轉(zhuǎn)換為統(tǒng)一格式,提取核心邏輯功能,并使其可執(zhí)行,以便生成輸入/輸出對(duì)。
- 收集輸入/輸出對(duì):為每個(gè)函數(shù)生成多個(gè)輸入,并執(zhí)行代碼以獲得相應(yīng)的輸出。此過(guò)程生成了超過(guò)350萬(wàn)個(gè)訓(xùn)練樣本。
- 構(gòu)建輸入/輸出預(yù)測(cè)樣本:將函數(shù)、查詢、參考代碼以及特定輸入或輸出組合在一起,構(gòu)建可訓(xùn)練的提示和響應(yīng)。響應(yīng)采用自然語(yǔ)言鏈?zhǔn)剿季S(CoT)形式。
- 多輪修訂(CODEI/O++):通過(guò)代碼執(zhí)行驗(yàn)證預(yù)測(cè),并對(duì)錯(cuò)誤響應(yīng)進(jìn)行多輪修訂,進(jìn)一步提高數(shù)據(jù)質(zhì)量。
3. 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果表明,CODEI/O在多個(gè)推理基準(zhǔn)測(cè)試(包括邏輯推理、符號(hào)推理、數(shù)學(xué)推理、科學(xué)推理和常識(shí)推理)上均取得了顯著的性能提升,優(yōu)于現(xiàn)有基線方法。CODEI/O++通過(guò)多輪修訂進(jìn)一步提升了性能。消融研究表明,輸入/輸出預(yù)測(cè)和多輪修訂對(duì)性能提升至關(guān)重要。不同合成模型的比較也顯示了CODEI/O方法的有效性。
4. 主要結(jié)論
CODEI/O提供了一種有效的方法來(lái)提升LLMs的推理能力,通過(guò)利用代碼中豐富的推理模式,并采用鏈?zhǔn)剿季S進(jìn)行訓(xùn)練,在多個(gè)推理任務(wù)上實(shí)現(xiàn)了顯著且均衡的性能提升。該方法具有可擴(kuò)展性和魯棒性,為未來(lái)LLMs的推理能力提升提供了新的方向。
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)