<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        10美元成功復現DeepSeek頓悟時刻,3B模型爆發超強推理!微軟論文反駁涌現

        AIGC動態7個月前發布 新智元
        330 0 0

        10美元成功復現DeepSeek頓悟時刻,3B模型爆發超強推理!微軟論文反駁涌現

        原標題:10美元成功復現DeepSeek頓悟時刻,3B模型爆發超強推理!微軟論文反駁涌現
        文章來源:新智元
        內容字數:15923字

        復刻DeepSeek“頓悟時刻”:低成本高效能的AI推理新突破

        近日,AI領域再次掀起波瀾,來自荷蘭的研究人員Raz僅用不到10美元的成本,在3B模型上復刻了DeepSeek的“頓悟時刻”,刷新了復刻成本的最低紀錄。與此同時,微軟亞研院的研究也印證了強化學習在提升大型語言模型推理能力上的巨大潛力,但對“頓悟時刻”的存在提出了質疑。

        1. Raz的低成本復刻:Reinforce-Lite算法的威力

        Raz采用了一種輕量級的強化學習算法——Reinforce-Lite,成功地在資源受限的條件下(48GB RTX 6000顯卡和10美元),讓3B模型展現出回溯、自我反思和邏輯推理等高級推理能力。他巧妙地簡化了強化學習算法的復雜性,避免了PPO等算法中復雜的組件和超參數調整,從而大幅降低了計算成本。Reinforce-Lite去除了對替代目標比率和舊策略模型的需求,通過單一策略神經網絡穩定訓練過程,并有效地賦予了模型推理能力。

        在GSM8K數學數據集上,Raz的模型通過端到端強化學習訓練,在準確率上取得了顯著提升。其訓練過程的關鍵在于:簡單的獎勵函數設計(正確答案獎勵+1,錯誤答案獎勵-1)、分組相對歸一化優勢計算,以及使用梯度裁剪替代KL散度計算,保證了訓練的穩定性。

        2. 微軟亞研院的研究:7B模型的高級推理能力與“頓悟時刻”的探討

        微軟亞研院的研究團隊受DeepSeek-R1啟發,利用強化學習訓練了一個7B模型,使其具備了反思、驗證和總結等高級推理技能。他們使用合成邏輯謎題作為訓練數據,并設計了嚴格的獎勵函數和訓練方案,避免了模型作弊。研究結果表明,7B模型在解決邏輯謎題上表現出色,并展現出多輪徑探索、回溯、應用邏輯公式等能力。然而,研究人員并沒有觀察到模型出現突發的“頓悟時刻”,而是推理能力的逐步提升。

        該研究團隊認為,復雜的推理行為并非在某個特定訓練步驟中突然出現,而是通過強化學習機制逐步培養形成的。模型中反思性詞匯、會話性短語和謹慎詞匯的頻率穩步增加,沒有出現突然的跳躍,支持了這一結論。 此外,研究還發現,更長的回答并不一定代表更好的推理,語言混合會阻礙推理,而課程學習仍然至關重要。

        3. 兩項研究的共同點與差異

        兩項研究都證明了強化學習在提升大型語言模型推理能力上的巨大潛力,并都探索了簡化強化學習算法以降低計算成本的方法。然而,它們在“頓悟時刻”的存在性上存在差異:Raz的研究似乎觀察到了類似“頓悟時刻”的現象,而微軟亞研院的研究則認為推理能力是逐步提升的,沒有突發的飛躍。

        未來,對強化學習算法的進一步優化和對模型推理機制的深入研究,將有助于更好地理解大型語言模型的學習過程,并推動其在更廣泛領域的應用。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲性色精品一区二区在线| 成年女人看片免费视频播放器| 亚洲AV成人精品日韩一区| 久久久久久a亚洲欧洲aⅴ| 永久免费看mv网站入口| 91免费国产在线观看| 国产羞羞的视频在线观看免费| 美女羞羞免费视频网站| 亚洲kkk4444在线观看| 亚洲视频在线免费看| 亚洲国产一成人久久精品| 亚洲Av无码乱码在线znlu| 免费看美女让人桶尿口| 免费大片黄在线观看yw| 57pao国产成视频免费播放| 女同免费毛片在线播放| 永久免费精品影视网站| 日韩在线视精品在亚洲| 亚洲乱码无人区卡1卡2卡3| 亚洲综合激情另类小说区| 亚洲人成在线影院| 久久精品国产亚洲AV麻豆~| 亚洲色中文字幕无码AV| 久久久青草青青国产亚洲免观| 亚洲 无码 在线 专区| 在线观看91精品国产不卡免费| 午夜两性色视频免费网站| 97无码免费人妻超级碰碰夜夜| 久久午夜夜伦鲁鲁片免费无码影视| 日本一区二区免费看| 另类免费视频一区二区在线观看 | 久久久久久成人毛片免费看| a毛片久久免费观看| 成人免费一区二区三区| 中国毛片免费观看| 免费人成激情视频在线观看冫| 成在人线av无码免费高潮喷水 | 亚洲第一AAAAA片| 亚洲爆乳精品无码一区二区三区| 亚洲精品高清国产一线久久| 亚洲成A人片777777|