原標題:如何提升大模型通用推理能力?DeepSeek最新論文《CODEI/O:通過代碼輸入輸出預測凝練推理模式》
文章來源:人工智能學家
內容字數:21537字
CODEI/O:提升大型語言模型推理能力的新方法
本文介紹了一種名為CODEI/O的新方法,旨在提升大型語言模型(LLMs)的推理能力。該方法的核心思想是將代碼轉換為代碼輸入/輸出預測格式,從而系統性地提煉代碼中固有的多樣化推理模式,并將其用于訓練LLMs。
1. 推理能力提升的挑戰
雖然LLMs在某些特定領域(如數學和代碼生成)的推理能力有所提高,但由于許多其他推理任務的訓練數據稀疏且碎片化,其性能提升仍然面臨挑戰。CODEI/O旨在解決這個問題。
2. CODEI/O方法
CODEI/O通過以下步驟實現推理能力的提升:
- 收集原始代碼文件:從多個來源收集Python代碼文件,涵蓋廣泛的推理模式,包括CodeMix和PyEdu-R等。
- 轉換為統一格式:使用DeepSeek-V2.5將原始代碼文件轉換為統一格式,提取核心邏輯功能,并使其可執行,以便生成輸入/輸出對。
- 收集輸入/輸出對:為每個函數生成多個輸入,并執行代碼以獲得相應的輸出。此過程生成了超過350萬個訓練樣本。
- 構建輸入/輸出預測樣本:將函數、查詢、參考代碼以及特定輸入或輸出組合在一起,構建可訓練的提示和響應。響應采用自然語言鏈式思維(CoT)形式。
- 多輪修訂(CODEI/O++):通過代碼執行驗證預測,并對錯誤響應進行多輪修訂,進一步提高數據質量。
3. 實驗結果與分析
實驗結果表明,CODEI/O在多個推理基準測試(包括邏輯推理、符號推理、數學推理、科學推理和常識推理)上均取得了顯著的性能提升,優于現有基線方法。CODEI/O++通過多輪修訂進一步提升了性能。消融研究表明,輸入/輸出預測和多輪修訂對性能提升至關重要。不同合成模型的比較也顯示了CODEI/O方法的有效性。
4. 主要結論
CODEI/O提供了一種有效的方法來提升LLMs的推理能力,通過利用代碼中豐富的推理模式,并采用鏈式思維進行訓練,在多個推理任務上實現了顯著且均衡的性能提升。該方法具有可擴展性和魯棒性,為未來LLMs的推理能力提升提供了新的方向。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...