原標題:OpenAI發布o1到o3變強報告:o3編程世界排名18「DeepSeek已經告訴方法」
文章來源:人工智能學家
內容字數:12610字
OpenAI: 強化學習賦能AI競技編程,從“小白”到世界冠軍
OpenAI 最新研究報告揭示了強化學習在提升大型語言模型 (LLM) 競技編程能力上的驚人效果,其研發的模型從最初的編程“小白”逐步進化為能夠與頂尖程序員匹敵的“高手”,甚至在國際信息學奧林匹克競賽 (IOI) 中奪得金牌。
1. 強化學習的突破
報告的核心在于強化學習 (RL) 的應用。OpenAI 首先開發了通用推理模型 OpenAI o1,通過強化鏈式思考能力,顯著提升了其編程水平。在模擬 Codeforces 競賽中,o1 模型的 Elo 評分從 1258 分躍升至 1673 分,排名大幅提升。
2. 人機協作的策略
為了挑戰 IOI,OpenAI 對 o1 模型進行了專項訓練,并結合人工策略,例如子任務分解、大規模采樣、聚類與重排序以及模型自生成測試用例等,打造了 o1-ioi 模型。這些策略顯著提升了模型性能,在放寬提交次數限制后,o1-ioi 模型最終獲得了 IOI 金牌。
3. o3 模型的自主進化
OpenAI 進一步探索了純粹強化學習的潛力,推出了 o3 模型。該模型無需任何人工策略,僅通過 RL 訓練,便在 Codeforces 上取得了 2724 分的 Elo 評分 (全球 Top 0.2%),并在 IOI 競賽中獲得金牌,得分高達 395.64 分。令人驚奇的是,o3 模型自主發展出了類似于人類程序員的“暴力解法”驗證策略,體現了 AI 的自主學習和策略優化能力。
4. 超越競賽:通用編程能力的提升
OpenAI 的研究成果不僅僅局限于競技編程。在軟件工程任務中,經過強化學習訓練的模型,例如 o3 模型,在 HackerRank Astra 和 SWE-bench Verified 數據集上也展現出顯著的性能提升,Pass@1 成功率提升達 22.8%,證明了強化學習在提升 AI 通用編程能力方面的巨大潛力。
5. 關鍵數據回顧
報告中一些關鍵數據進一步佐證了強化學習的有效性:Codeforces Elo 評分:o1-preview: 1258,o1: 1673,o1-ioi: 2214,o3: 2724;IOI 競賽得分:o1-ioi (官方約束): 213 分,o1-ioi (放寬約束): 362.14 分,o3 (官方約束): 395.64 分;SWE-bench 性能提升:o3 相比 o1,Pass@1 提升 22.8%。
總而言之,OpenAI 的研究表明,強化學習是提升 AI 編程能力的關鍵驅動力,其模型在競技編程和更廣泛的軟件工程領域都取得了突破性進展,預示著 AI 在軟件開發領域擁有廣闊的應用前景。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構