在Deepseek-R1-ZERO出現前，為何無人嘗試放棄微調對齊，通過強化學習生成思考鏈推理模型？

只能說這就是時代的局限性。

原標題：在Deepseek-R1-ZERO出現前，為何無人嘗試放棄微調對齊，通過強化學習生成思考鏈推理模型？
文章來源：智猩猩GenAI
內容字數：1531字

DeepSeek-R1-ZERO之前，為何鮮少有人嘗試放棄微調對齊，直接用強化學習生成思考鏈推理模型？

本文總結了知乎用戶FURUF對DeepSeek-R1-ZERO出現前，強化學習在生成思考鏈推理模型應用稀少原因的分析。主要觀點歸納如下：

1. Let’s Verify Step by Step論文的影響

1.1 OpenAI的Let’s Verify Step by Step論文對后續研究方向產生了重大影響。該論文通過大量實驗比較了PRM（Prompt-based Reasoning Methods）和ORM（Output-based Reasoning Methods）兩種方法的優劣，得出PRM顯著優于ORM，且PRM具有更強的分布外泛化能力的結論。

1.2 該結論引導了大量后續研究都基于PRM展開，忽視了ORM在強化學習中的潛在優勢。實際上，在使用強化學習時，ORM由于更難被reward hacking，反而更有效。

1.3 作者認為，這篇論文及其相關工作將研究思路帶偏向了PRM，阻礙了對ORM在強化學習中應用的探索。

2. 基礎模型性能的不足

2.1 許多研究人員很早就嘗試將強化學習應用于大型語言模型 (LLM)，但由于當時的基礎模型性能不足而失敗。

2.2 早期的實驗主要使用GPT-2、Llama-2等模型，這些模型的推理能力相對較弱，即使嘗試各種強化學習算法，效果也不理想。

2.3 作者指出，這并非方法本身的問題，而是基礎模型質量的限制。只有在Qwen-2.5-MATH等推理能力經過強化的“小鋼炮”模型出現后，才有可能成功復現R1的結果。

2.4 這些“小鋼炮”模型在各種推理基準測試上的分數，遠高于早期實驗中使用的模型，從而突破了技術瓶頸。

3. 總結

3.1 DeepSeek-R1-ZERO出現前，強化學習在生成思考鏈推理模型應用較少，主要原因在于Let’s Verify Step by Step論文的影響以及當時基礎模型性能的不足。

3.2 Let’s Verify Step by Step論文將研究方向導向PRM，而忽視了ORM在強化學習中的優勢；同時，早期LLM的推理能力有限，使得基于強化學習的方法難以取得突破。

3.3 只有在擁有足夠強大的基礎模型后，結合合適的強化學習算法，才能成功生成高質量的思考鏈推理模型，例如DeepSeek-R1-ZERO。

3.4 這體現了技術發展的階段性，以及基礎模型性能對于算法突破的重要性。“朽木不可雕也”恰當地總結了當時的研究困境。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

在Deepseek-R1-ZERO出現前，為何無人嘗試放棄微調對齊，通過強化學習生成思考鏈推理模型？

只能說這就是時代的局限性。

DeepSeek-R1-ZERO之前，為何鮮少有人嘗試放棄微調對齊，直接用強化學習生成思考鏈推理模型？

1. Let’s Verify Step by Step論文的影響

2. 基礎模型性能的不足

3. 總結

聯系作者

讓大模型讀懂善用知識庫！清華等團隊推出 UltraRAG 框架全家桶

國產AI搜索接入DeepSeek-R1，深度試玩報告搶先出爐：正愁用不上官方聯網搜索

相關文章

暫無評論

ChatGPT

玩虛擬模特？