LLM推理暴漲，數(shù)學(xué)邏輯開掛！ DeepSeek等華人團(tuán)隊(duì)新大招，Ai2大牛狂點(diǎn)贊

原標(biāo)題：LLM推理暴漲，數(shù)學(xué)邏輯開掛！ DeepSeek等華人團(tuán)隊(duì)新大招，Ai2大牛狂點(diǎn)贊
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：11572字

DeepSeek團(tuán)隊(duì)新作CODEI/O：利用代碼提升LLM推理能力

近日，DeepSeek團(tuán)隊(duì)聯(lián)合上海交通大學(xué)和香港科技大學(xué)的研究人員發(fā)布了全新研究成果CODEI/O，該方法通過代碼輸入/輸出，有效提升了大型語(yǔ)言模型(LLM)的推理能力，并獲得Ai2研究所大牛Nathan Lambert的高度評(píng)價(jià)。這項(xiàng)研究成果，特別是其一作Junlong Li在DeepSeek實(shí)習(xí)期間完成的研究，迅速引發(fā)了學(xué)術(shù)界的廣泛關(guān)注。

1. LLM推理能力的瓶頸與CODEI/O的提出：LLM在推理任務(wù)中面臨挑戰(zhàn)，主要原因在于訓(xùn)練數(shù)據(jù)的稀疏性和零散性。以往的研究主要集中在特定領(lǐng)域（如數(shù)學(xué)或代碼），而CODEI/O則旨在系統(tǒng)性地提升LLM在更廣泛推理任務(wù)上的能力。其核心思想是通過代碼的輸入/輸出預(yù)測(cè)，提煉出代碼中蘊(yùn)含的各種推理模式。

2. CODEI/O的數(shù)據(jù)構(gòu)建流程：CODEI/O的數(shù)據(jù)構(gòu)建流程包含以下步驟：

收集原始代碼文件：從CodeMix、PyEdu-R等多個(gè)來(lái)源收集約810.5K個(gè)Python代碼文件。
轉(zhuǎn)換為統(tǒng)一格式：使用DeepSeek-V2.5對(duì)代碼進(jìn)行預(yù)處理，將其轉(zhuǎn)換為可執(zhí)行函數(shù)，并明確定義輸入/輸出，確保其JSON可序列化。
收集輸入/輸出對(duì)：使用自定義的輸入生成器生成測(cè)試用例，并執(zhí)行代碼收集相應(yīng)的輸出。
構(gòu)建訓(xùn)練樣本：將函數(shù)、查詢、參考代碼和輸入/輸出組合成提示和響應(yīng)，構(gòu)建監(jiān)督學(xué)習(xí)數(shù)據(jù)集CODEI/O和CODEI/O++ (包含多輪反饋)。

3. 實(shí)驗(yàn)結(jié)果與分析：實(shí)驗(yàn)結(jié)果表明，CODEI/O在符號(hào)推理、科學(xué)推理、邏輯推理、數(shù)學(xué)與數(shù)值推理以及常識(shí)推理等任務(wù)上均取得了顯著的性能提升，優(yōu)于其他數(shù)據(jù)集，并展現(xiàn)出跨模型規(guī)模和架構(gòu)的普遍有效性。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了輸入/輸出預(yù)測(cè)、多輪迭代以及兩階段訓(xùn)練的必要性。

4. CODEI/O的核心優(yōu)勢(shì)：CODEI/O的核心優(yōu)勢(shì)在于其系統(tǒng)性的方法，通過代碼輸入/輸出預(yù)測(cè)，提取了代碼中蘊(yùn)含的多種推理模式，并將其應(yīng)用于LLM的訓(xùn)練，從而在多個(gè)推理任務(wù)上實(shí)現(xiàn)了顯著的性能提升。此外，CODEI/O還展現(xiàn)出良好的可擴(kuò)展性。

5. 團(tuán)隊(duì)成員介紹：該論文一作Junlong Li是上海交通大學(xué)碩士生，其他作者來(lái)自DeepSeek和香港科技大學(xué)，均在人工智能領(lǐng)域擁有豐富的研究經(jīng)驗(yàn)。

總之，CODEI/O為提升LLM的推理能力提供了一種新的有效方法，其研究成果對(duì)人工智能領(lǐng)域具有重要的意義。DeepSeek團(tuán)隊(duì)在LLM領(lǐng)域持續(xù)的創(chuàng)新和突破，也值得我們關(guān)注和學(xué)習(xí)。

聯(lián)系作者

文章來(lái)源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文