如何提升大模型通用推理能力？DeepSeek最新論文《CODEI/O：通過代碼輸入輸出預測凝練推理模式》

AIGC動態5個月前發布人工智能學家

459 0 0

原標題：如何提升大模型通用推理能力？DeepSeek最新論文《CODEI/O：通過代碼輸入輸出預測凝練推理模式》
文章來源：人工智能學家
內容字數：21537字

CODEI/O：提升大型語言模型推理能力的新方法

本文介紹了一種名為CODEI/O的新方法，旨在提升大型語言模型（LLMs）的推理能力。該方法的核心思想是將代碼轉換為代碼輸入/輸出預測格式，從而系統性地提煉代碼中固有的多樣化推理模式，并將其用于訓練LLMs。

1. 推理能力提升的挑戰

雖然LLMs在某些特定領域（如數學和代碼生成）的推理能力有所提高，但由于許多其他推理任務的訓練數據稀疏且碎片化，其性能提升仍然面臨挑戰。CODEI/O旨在解決這個問題。

2. CODEI/O方法

CODEI/O通過以下步驟實現推理能力的提升：

收集原始代碼文件：從多個來源收集Python代碼文件，涵蓋廣泛的推理模式，包括CodeMix和PyEdu-R等。
轉換為統一格式：使用DeepSeek-V2.5將原始代碼文件轉換為統一格式，提取核心邏輯功能，并使其可執行，以便生成輸入/輸出對。
收集輸入/輸出對：為每個函數生成多個輸入，并執行代碼以獲得相應的輸出。此過程生成了超過350萬個訓練樣本。
構建輸入/輸出預測樣本：將函數、查詢、參考代碼以及特定輸入或輸出組合在一起，構建可訓練的提示和響應。響應采用自然語言鏈式思維（CoT）形式。
多輪修訂（CODEI/O++）：通過代碼執行驗證預測，并對錯誤響應進行多輪修訂，進一步提高數據質量。

3. 實驗結果與分析

實驗結果表明，CODEI/O在多個推理基準測試（包括邏輯推理、符號推理、數學推理、科學推理和常識推理）上均取得了顯著的性能提升，優于現有基線方法。CODEI/O++通過多輪修訂進一步提升了性能。消融研究表明，輸入/輸出預測和多輪修訂對性能提升至關重要。不同合成模型的比較也顯示了CODEI/O方法的有效性。