原標題:10美元成功復現DeepSeek頓悟時刻,3B模型爆發超強推理!微軟論文反駁涌現
文章來源:新智元
內容字數:15923字
復刻DeepSeek“頓悟時刻”:低成本高效能的AI推理新突破
近日,AI領域再次掀起波瀾,來自荷蘭的研究人員Raz僅用不到10美元的成本,在3B模型上復刻了DeepSeek的“頓悟時刻”,刷新了復刻成本的最低紀錄。與此同時,微軟亞研院的研究也印證了強化學習在提升大型語言模型推理能力上的巨大潛力,但對“頓悟時刻”的存在提出了質疑。
1. Raz的低成本復刻:Reinforce-Lite算法的威力
Raz采用了一種輕量級的強化學習算法——Reinforce-Lite,成功地在資源受限的條件下(48GB RTX 6000顯卡和10美元),讓3B模型展現出回溯、自我反思和邏輯推理等高級推理能力。他巧妙地簡化了強化學習算法的復雜性,避免了PPO等算法中復雜的組件和超參數調整,從而大幅降低了計算成本。Reinforce-Lite去除了對替代目標比率和舊策略模型的需求,通過單一策略神經網絡穩定訓練過程,并有效地賦予了模型推理能力。
在GSM8K數學數據集上,Raz的模型通過端到端強化學習訓練,在準確率上取得了顯著提升。其訓練過程的關鍵在于:簡單的獎勵函數設計(正確答案獎勵+1,錯誤答案獎勵-1)、分組相對歸一化優勢計算,以及使用梯度裁剪替代KL散度計算,保證了訓練的穩定性。
2. 微軟亞研院的研究:7B模型的高級推理能力與“頓悟時刻”的探討
微軟亞研院的研究團隊受DeepSeek-R1啟發,利用強化學習訓練了一個7B模型,使其具備了反思、驗證和總結等高級推理技能。他們使用合成邏輯謎題作為訓練數據,并設計了嚴格的獎勵函數和訓練方案,避免了模型作弊。研究結果表明,7B模型在解決邏輯謎題上表現出色,并展現出多輪徑探索、回溯、應用邏輯公式等能力。然而,研究人員并沒有觀察到模型出現突發的“頓悟時刻”,而是推理能力的逐步提升。
該研究團隊認為,復雜的推理行為并非在某個特定訓練步驟中突然出現,而是通過強化學習機制逐步培養形成的。模型中反思性詞匯、會話性短語和謹慎詞匯的頻率穩步增加,沒有出現突然的跳躍,支持了這一結論。 此外,研究還發現,更長的回答并不一定代表更好的推理,語言混合會阻礙推理,而課程學習仍然至關重要。
3. 兩項研究的共同點與差異
兩項研究都證明了強化學習在提升大型語言模型推理能力上的巨大潛力,并都探索了簡化強化學習算法以降低計算成本的方法。然而,它們在“頓悟時刻”的存在性上存在差異:Raz的研究似乎觀察到了類似“頓悟時刻”的現象,而微軟亞研院的研究則認為推理能力是逐步提升的,沒有突發的飛躍。
未來,對強化學習算法的進一步優化和對模型推理機制的深入研究,將有助于更好地理解大型語言模型的學習過程,并推動其在更廣泛領域的應用。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。