原標題:LLM推理暴漲,數學邏輯開掛! DeepSeek等華人團隊新大招,Ai2大牛狂點贊
文章來源:新智元
內容字數:11572字
DeepSeek團隊新作CODEI/O:利用代碼提升LLM推理能力
近日,DeepSeek團隊聯合上海交通大學和香港科技大學的研究人員發布了全新研究成果CODEI/O,該方法通過代碼輸入/輸出,有效提升了大型語言模型(LLM)的推理能力,并獲得Ai2研究所大牛Nathan Lambert的高度評價。這項研究成果,特別是其一作Junlong Li在DeepSeek實習期間完成的研究,迅速引發了學術界的廣泛關注。
1. LLM推理能力的瓶頸與CODEI/O的提出:LLM在推理任務中面臨挑戰,主要原因在于訓練數據的稀疏性和零散性。以往的研究主要集中在特定領域(如數學或代碼),而CODEI/O則旨在系統性地提升LLM在更廣泛推理任務上的能力。其核心思想是通過代碼的輸入/輸出預測,提煉出代碼中蘊含的各種推理模式。
2. CODEI/O的數據構建流程:CODEI/O的數據構建流程包含以下步驟:
- 收集原始代碼文件:從CodeMix、PyEdu-R等多個來源收集約810.5K個Python代碼文件。
- 轉換為統一格式:使用DeepSeek-V2.5對代碼進行預處理,將其轉換為可執行函數,并明確定義輸入/輸出,確保其JSON可序列化。
- 收集輸入/輸出對:使用自定義的輸入生成器生成測試用例,并執行代碼收集相應的輸出。
- 構建訓練樣本:將函數、查詢、參考代碼和輸入/輸出組合成提示和響應,構建監督學習數據集CODEI/O和CODEI/O++ (包含多輪反饋)。
3. 實驗結果與分析:實驗結果表明,CODEI/O在符號推理、科學推理、邏輯推理、數學與數值推理以及常識推理等任務上均取得了顯著的性能提升,優于其他數據集,并展現出跨模型規模和架構的普遍有效性。消融實驗進一步驗證了輸入/輸出預測、多輪迭代以及兩階段訓練的必要性。
4. CODEI/O的核心優勢:CODEI/O的核心優勢在于其系統性的方法,通過代碼輸入/輸出預測,提取了代碼中蘊含的多種推理模式,并將其應用于LLM的訓練,從而在多個推理任務上實現了顯著的性能提升。此外,CODEI/O還展現出良好的可擴展性。
5. 團隊成員介紹:該論文一作Junlong Li是上海交通大學碩士生,其他作者來自DeepSeek和香港科技大學,均在人工智能領域擁有豐富的研究經驗。
總之,CODEI/O為提升LLM的推理能力提供了一種新的有效方法,其研究成果對人工智能領域具有重要的意義。DeepSeek團隊在LLM領域持續的創新和突破,也值得我們關注和學習。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。