<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        僅靠邏輯題,AI數學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

        AIGC動態5個月前發布 機器之心
        512 0 0

        在完全未見過的美國數學奧林匹克(AIME)測試中,該模型的推理性能提升了125%!

        僅靠邏輯題,AI數學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

        原標題:僅靠邏輯題,AI數學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini
        文章來源:機器之心
        內容字數:6931字

        DeepSeek R1:僅用5000條合成數據,大幅提升AI數學競賽水平

        機器之心AIxiv專欄報道了微軟亞洲研究院、九坤投資和研究員合作完成的一項最新研究,該研究揭秘了DeepSeek R1模型如何通過低成本強化學習,在邏輯推理測試中取得顯著突破。該研究論文題為《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》,已發布在arXiv上。

        1. 研究目標及方法

        該研究旨在探究強化學習在提升大型語言模型 (LLM) 邏輯推理能力中的有效性,并解答一系列關鍵問題,例如:最佳強化學習算法選擇、冷啟動與基于基礎模型啟動的差異、模型輸出長度與推理能力的關系、特定詞匯與推理能力的關聯,以及強化學習與監督微調的優劣比較等。

        研究團隊采用完全由程序合成的邏輯謎題作為訓練數據,這些謎題具有難度可控、答案明確等優點,有效避免了自然語言任務中常見的模糊性。他們設計了一個基于規則的獎勵系統,幾乎杜絕了模型作弊行為,并通過 REINFORCE++ 算法進行訓練。

        2. 關鍵發現

        研究發現,僅需5000條合成邏輯謎題,7B參數規模的小模型就能在邏輯推理測試中超越OpenAI o1,逼近o3-mini-high的性能。在未見過的美國數學奧林匹克(AIME)測試中,推理性能提升了125%。

        一些有趣的發現包括:

        1. 詞匯與推理能力: 諸如“verify”、“check”等反思性詞匯的出現與推理性能提升相關,但并非所有此類詞匯都具有積極作用。“recheck”反而可能表明模型猶豫不決,增加錯誤概率。
        2. 語言混雜: 中英夾雜會降低模型性能,建議在獎勵系統中加入語言一致性懲罰。
        3. “頓悟時刻”: 研究并未發現模型訓練過程中存在突如其來的“Aha moment”,與反思相關的詞匯在訓練初期就已經出現,只是頻率較低。
        4. 強化學習vs.監督微調: 強化學習在不依賴數據結構的情況下,以極低的數據代價實現了高效進化,展現出強大的泛化性,優于監督微調。
        5. 輸出長度與性能: 模型輸出長度的增加并不一定代表推理性能的提升,過長的輸出反而可能導致“過度思考”和錯誤。

        3. 代碼和數據開源

        該團隊完整開源了全流程代碼、參數設置、訓練數據和設計經驗,為后續研究提供了寶貴的參考。

        4. 結論

        這項研究證明了強化學習在提升LLM邏輯推理能力方面的巨大潛力,并為未來研究提供了諸多有價值的經驗和啟示。其低成本、高效率的訓練方法,為AI在數學及其他邏輯推理領域的應用開辟了新的道路。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 色偷偷尼玛图亚洲综合| 亚洲AV人无码激艳猛片| 亚洲一级特黄特黄的大片| 色猫咪免费人成网站在线观看| 免费一级肉体全黄毛片| 色欲色欲天天天www亚洲伊| 免费黄网在线观看| 亚洲国产精品成人午夜在线观看| 美女网站免费福利视频| 国产成人精品日本亚洲专| 国产精品久久久久久久久久免费| 亚洲人成免费网站| 成年男女男精品免费视频网站| 亚洲 欧洲 日韩 综合在线| 成人免费在线观看网站| 亚洲AV无码XXX麻豆艾秋| 亚洲M码 欧洲S码SSS222| 国产免费黄色无码视频| 亚洲色欲久久久综合网| 四虎国产精品永久免费网址| 久久亚洲sm情趣捆绑调教| 69成人免费视频| 激情小说亚洲图片| 亚洲午夜未满十八勿入网站2| 国产午夜精品理论片免费观看| 亚洲AV无码一区二区三区DV| 成人福利免费视频| 精品久久久久久久久亚洲偷窥女厕| 亚洲黄片毛片在线观看| 久久精品电影免费动漫| 精品亚洲AV无码一区二区三区| 免费观看四虎精品国产永久| 国产一级黄片儿免费看| 亚洲一级毛片在线观| 国产小视频在线观看免费| 中文在线免费不卡视频| 亚洲fuli在线观看| 久久久久亚洲精品天堂久久久久久| 日韩精品无码专区免费播放| 一本色道久久88—综合亚洲精品 | 182tv免费观看在线视频|