<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        10美元成功復現DeepSeek頓悟時刻,3B模型爆發超強推理!微軟論文反駁涌現

        AIGC動態3個月前發布 新智元
        325 0 0

        10美元成功復現DeepSeek頓悟時刻,3B模型爆發超強推理!微軟論文反駁涌現

        原標題:10美元成功復現DeepSeek頓悟時刻,3B模型爆發超強推理!微軟論文反駁涌現
        文章來源:新智元
        內容字數:15923字

        復刻DeepSeek“頓悟時刻”:低成本高效能的AI推理新突破

        近日,AI領域再次掀起波瀾,來自荷蘭的研究人員Raz僅用不到10美元的成本,在3B模型上復刻了DeepSeek的“頓悟時刻”,刷新了復刻成本的最低紀錄。與此同時,微軟亞研院的研究也印證了強化學習在提升大型語言模型推理能力上的巨大潛力,但對“頓悟時刻”的存在提出了質疑。

        1. Raz的低成本復刻:Reinforce-Lite算法的威力

        Raz采用了一種輕量級的強化學習算法——Reinforce-Lite,成功地在資源受限的條件下(48GB RTX 6000顯卡和10美元),讓3B模型展現出回溯、自我反思和邏輯推理等高級推理能力。他巧妙地簡化了強化學習算法的復雜性,避免了PPO等算法中復雜的組件和超參數調整,從而大幅降低了計算成本。Reinforce-Lite去除了對替代目標比率和舊策略模型的需求,通過單一策略神經網絡穩定訓練過程,并有效地賦予了模型推理能力。

        在GSM8K數學數據集上,Raz的模型通過端到端強化學習訓練,在準確率上取得了顯著提升。其訓練過程的關鍵在于:簡單的獎勵函數設計(正確答案獎勵+1,錯誤答案獎勵-1)、分組相對歸一化優勢計算,以及使用梯度裁剪替代KL散度計算,保證了訓練的穩定性。

        2. 微軟亞研院的研究:7B模型的高級推理能力與“頓悟時刻”的探討

        微軟亞研院的研究團隊受DeepSeek-R1啟發,利用強化學習訓練了一個7B模型,使其具備了反思、驗證和總結等高級推理技能。他們使用合成邏輯謎題作為訓練數據,并設計了嚴格的獎勵函數和訓練方案,避免了模型作弊。研究結果表明,7B模型在解決邏輯謎題上表現出色,并展現出多輪徑探索、回溯、應用邏輯公式等能力。然而,研究人員并沒有觀察到模型出現突發的“頓悟時刻”,而是推理能力的逐步提升。

        該研究團隊認為,復雜的推理行為并非在某個特定訓練步驟中突然出現,而是通過強化學習機制逐步培養形成的。模型中反思性詞匯、會話性短語和謹慎詞匯的頻率穩步增加,沒有出現突然的跳躍,支持了這一結論。 此外,研究還發現,更長的回答并不一定代表更好的推理,語言混合會阻礙推理,而課程學習仍然至關重要。

        3. 兩項研究的共同點與差異

        兩項研究都證明了強化學習在提升大型語言模型推理能力上的巨大潛力,并都探索了簡化強化學習算法以降低計算成本的方法。然而,它們在“頓悟時刻”的存在性上存在差異:Raz的研究似乎觀察到了類似“頓悟時刻”的現象,而微軟亞研院的研究則認為推理能力是逐步提升的,沒有突發的飛躍。

        未來,對強化學習算法的進一步優化和對模型推理機制的深入研究,將有助于更好地理解大型語言模型的學習過程,并推動其在更廣泛領域的應用。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产一级一片免费播放i| 亚洲成人网在线播放| 亚洲国产婷婷六月丁香| 一区二区免费国产在线观看| 国产美女无遮挡免费视频| 久久无码av亚洲精品色午夜| a级毛片免费完整视频| 精品亚洲综合在线第一区| 亚洲av成本人无码网站| 日本a级片免费看| 亚洲精品国产情侣av在线| 日韩一区二区三区免费播放| 亚洲片国产一区一级在线观看| 亚洲自偷自偷精品| 91福利视频免费| 亚洲专区一路线二| 国产免费一区二区视频| 亚洲国产精品久久久久网站| 真人做A免费观看| 夜夜春亚洲嫩草影院| 久久午夜免费鲁丝片| 在线日韩日本国产亚洲| 成人性做爰aaa片免费看| 亚洲视频日韩视频| 成人黄网站片免费视频 | 亚洲欧美成人综合久久久| 国产特级淫片免费看| 九九99热免费最新版| 亚洲大尺码专区影院| 又黄又大又爽免费视频| 亚洲一卡2卡4卡5卡6卡在线99| 免费电视剧在线观看| 中美日韩在线网免费毛片视频| 亚洲AV中文无码乱人伦下载| 久久经典免费视频| 亚洲第一精品电影网| 国产精品久久免费视频| a级午夜毛片免费一区二区| 亚洲不卡中文字幕| 亚洲五月综合缴情在线观看| 国产精品1024永久免费视频|