僅靠邏輯題，AI數學競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

在完全未見過的美國數學奧林匹克（AIME）測試中，該模型的推理性能提升了125%！

原標題：僅靠邏輯題，AI數學競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini
文章來源：機器之心
內容字數：6931字

DeepSeek R1：僅用5000條合成數據，大幅提升AI數學競賽水平

機器之心AIxiv專欄報道了微軟亞洲研究院、九坤投資和研究員合作完成的一項最新研究，該研究揭秘了DeepSeek R1模型如何通過低成本強化學習，在邏輯推理測試中取得顯著突破。該研究論文題為《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》，已發布在arXiv上。

1. 研究目標及方法

該研究旨在探究強化學習在提升大型語言模型 (LLM) 邏輯推理能力中的有效性，并解答一系列關鍵問題，例如：最佳強化學習算法選擇、冷啟動與基于基礎模型啟動的差異、模型輸出長度與推理能力的關系、特定詞匯與推理能力的關聯，以及強化學習與監督微調的優劣比較等。

研究團隊采用完全由程序合成的邏輯謎題作為訓練數據，這些謎題具有難度可控、答案明確等優點，有效避免了自然語言任務中常見的模糊性。他們設計了一個基于規則的獎勵系統，幾乎杜絕了模型作弊行為，并通過 REINFORCE++ 算法進行訓練。

2. 關鍵發現

研究發現，僅需5000條合成邏輯謎題，7B參數規模的小模型就能在邏輯推理測試中超越OpenAI o1，逼近o3-mini-high的性能。在未見過的美國數學奧林匹克（AIME）測試中，推理性能提升了125%。

一些有趣的發現包括：

詞匯與推理能力： 諸如“verify”、“check”等反思性詞匯的出現與推理性能提升相關，但并非所有此類詞匯都具有積極作用。“recheck”反而可能表明模型猶豫不決，增加錯誤概率。
語言混雜： 中英夾雜會降低模型性能，建議在獎勵系統中加入語言一致性懲罰。
“頓悟時刻”： 研究并未發現模型訓練過程中存在突如其來的“Aha moment”，與反思相關的詞匯在訓練初期就已經出現，只是頻率較低。
強化學習vs.監督微調： 強化學習在不依賴數據結構的情況下，以極低的數據代價實現了高效進化，展現出強大的泛化性，優于監督微調。
輸出長度與性能： 模型輸出長度的增加并不一定代表推理性能的提升，過長的輸出反而可能導致“過度思考”和錯誤。

3. 代碼和數據開源

該團隊完整開源了全流程代碼、參數設置、訓練數據和設計經驗，為后續研究提供了寶貴的參考。

4. 結論

這項研究證明了強化學習在提升LLM邏輯推理能力方面的巨大潛力，并為未來研究提供了諸多有價值的經驗和啟示。其低成本、高效率的訓練方法，為AI在數學及其他邏輯推理領域的應用開辟了新的道路。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 7B參數模型 # AI數學競賽 # 九坤投資 # 小模型性能提升 # 邏輯推理AI

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

僅靠邏輯題，AI數學競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

在完全未見過的美國數學奧林匹克（AIME）測試中，該模型的推理性能提升了125%！

DeepSeek R1：僅用5000條合成數據，大幅提升AI數學競賽水平

1. 研究目標及方法

2. 關鍵發現

3. 代碼和數據開源

4. 結論

聯系作者

在線教程丨石磯娘娘秒變「川渝妹子」？Step-Audio-TTS實現語音克隆/音樂合成/語音合成三合一

中文比R1絲滑、玩寶可夢還賊溜？全球首個混合推理模型Claude 3.7 Sonnet太驚艷，網友直呼“孤獨求敗”！

相關文章

暫無評論

ChatGPT

玩虛擬模特？