LLM推理暴漲,數(shù)學(xué)邏輯開掛! DeepSeek等華人團(tuán)隊(duì)新大招,Ai2大牛狂點(diǎn)贊
原標(biāo)題:LLM推理暴漲,數(shù)學(xué)邏輯開掛! DeepSeek等華人團(tuán)隊(duì)新大招,Ai2大牛狂點(diǎn)贊
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):11572字
DeepSeek團(tuán)隊(duì)新作CODEI/O:利用代碼提升LLM推理能力
近日,DeepSeek團(tuán)隊(duì)聯(lián)合上海交通大學(xué)和香港科技大學(xué)的研究人員發(fā)布了全新研究成果CODEI/O,該方法通過代碼輸入/輸出,有效提升了大型語(yǔ)言模型(LLM)的推理能力,并獲得Ai2研究所大牛Nathan Lambert的高度評(píng)價(jià)。這項(xiàng)研究成果,特別是其一作Junlong Li在DeepSeek實(shí)習(xí)期間完成的研究,迅速引發(fā)了學(xué)術(shù)界的廣泛關(guān)注。
1. LLM推理能力的瓶頸與CODEI/O的提出:LLM在推理任務(wù)中面臨挑戰(zhàn),主要原因在于訓(xùn)練數(shù)據(jù)的稀疏性和零散性。以往的研究主要集中在特定領(lǐng)域(如數(shù)學(xué)或代碼),而CODEI/O則旨在系統(tǒng)性地提升LLM在更廣泛推理任務(wù)上的能力。其核心思想是通過代碼的輸入/輸出預(yù)測(cè),提煉出代碼中蘊(yùn)含的各種推理模式。
2. CODEI/O的數(shù)據(jù)構(gòu)建流程:CODEI/O的數(shù)據(jù)構(gòu)建流程包含以下步驟:
- 收集原始代碼文件:從CodeMix、PyEdu-R等多個(gè)來(lái)源收集約810.5K個(gè)Python代碼文件。
- 轉(zhuǎn)換為統(tǒng)一格式:使用DeepSeek-V2.5對(duì)代碼進(jìn)行預(yù)處理,將其轉(zhuǎn)換為可執(zhí)行函數(shù),并明確定義輸入/輸出,確保其JSON可序列化。
- 收集輸入/輸出對(duì):使用自定義的輸入生成器生成測(cè)試用例,并執(zhí)行代碼收集相應(yīng)的輸出。
- 構(gòu)建訓(xùn)練樣本:將函數(shù)、查詢、參考代碼和輸入/輸出組合成提示和響應(yīng),構(gòu)建監(jiān)督學(xué)習(xí)數(shù)據(jù)集CODEI/O和CODEI/O++ (包含多輪反饋)。
3. 實(shí)驗(yàn)結(jié)果與分析:實(shí)驗(yàn)結(jié)果表明,CODEI/O在符號(hào)推理、科學(xué)推理、邏輯推理、數(shù)學(xué)與數(shù)值推理以及常識(shí)推理等任務(wù)上均取得了顯著的性能提升,優(yōu)于其他數(shù)據(jù)集,并展現(xiàn)出跨模型規(guī)模和架構(gòu)的普遍有效性。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了輸入/輸出預(yù)測(cè)、多輪迭代以及兩階段訓(xùn)練的必要性。
4. CODEI/O的核心優(yōu)勢(shì):CODEI/O的核心優(yōu)勢(shì)在于其系統(tǒng)性的方法,通過代碼輸入/輸出預(yù)測(cè),提取了代碼中蘊(yùn)含的多種推理模式,并將其應(yīng)用于LLM的訓(xùn)練,從而在多個(gè)推理任務(wù)上實(shí)現(xiàn)了顯著的性能提升。此外,CODEI/O還展現(xiàn)出良好的可擴(kuò)展性。
5. 團(tuán)隊(duì)成員介紹:該論文一作Junlong Li是上海交通大學(xué)碩士生,其他作者來(lái)自DeepSeek和香港科技大學(xué),均在人工智能領(lǐng)域擁有豐富的研究經(jīng)驗(yàn)。
總之,CODEI/O為提升LLM的推理能力提供了一種新的有效方法,其研究成果對(duì)人工智能領(lǐng)域具有重要的意義。DeepSeek團(tuán)隊(duì)在LLM領(lǐng)域持續(xù)的創(chuàng)新和突破,也值得我們關(guān)注和學(xué)習(xí)。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。