自我反思(尤其是膚淺的)有時對模型性能的助益不大。
原標題:華人研究團隊揭秘:DeepSeek-R1-Zero或許并不存在「頓悟時刻」
文章來源:機器之心
內容字數:6893字
DeepSeek-R1-Zero“頓悟時刻”再研究:并非RL訓練的專屬
近期,研究者對DeepSeek-R1-Zero模型的“頓悟時刻”(模型展現自我反思能力,從而提升復雜推理能力)進行了深入研究,了先前的一些結論。
Epoch 0 的“頓悟”:自我反思并非RL獨有
研究發現,所謂的“頓悟時刻”并非強化學習(RL)訓練的專屬產物。在多個基礎模型(Qwen-2.5、DeepSeek-Math等)中,即使在Epoch 0(即基礎模型階段),也已經存在自我反思的模式。這些模型在沒有任何RL訓練的情況下,就能通過關鍵詞(例如“讓我檢查一下”、“等等”)表現出自我反思行為。溫度參數越高,這種現象越明顯。 Qwen2.5系列模型表現尤為突出,這或許解釋了為何許多開源的R1-Zero復現都基于該模型。
膚淺的自我反思 (SSR):并非所有反思都有效
研究者發現,基礎模型中存在的自我反思并非總是有效的。許多自我反思是“膚淺的”(SSR),即模型進行自我檢查,但并沒有帶來最終答案的改進,甚至可能引入錯誤。研究通過案例分析展示了四種自我反思模式,其中兩種屬于SSR,導致最終答案不正確。分析表明,在基礎模型中,錯誤答案現自我反思關鍵詞的頻率甚至高于正確答案。
響應長度增加的:RL優化而非“頓悟”
先前認為響應長度的增加是“頓悟時刻”的標志,但研究表明,這可能是RL優化策略的結果。通過在倒計時任務和數學問題上進行實驗,研究者發現,RL訓練初期,模型為了在token預算內得到獎勵,會壓縮響應長度。隨后,為了獲得更高的獎勵,模型會增加重試次數,從而導致響應長度增加。這并非由于“頓悟”導致的自我反思能力提升,而是RL算法優化獎勵函數的結果。
輸出長度與自我反思:并非線性關系
研究者通過實驗發現,模型的輸出長度與自我反思關鍵詞的數量并不存在單調關系。這表明,單純依靠輸出長度來判斷模型是否產生了有效的自我反思是不夠準確的。
總而言之,這項研究對DeepSeek-R1-Zero模型的“頓悟時刻”進行了重新解讀,指出先前的一些結論可能過于樂觀。 自我反思能力在基礎模型中就已經存在,RL訓練的作用可能是將膚淺的自我反思轉化為有效的自我反思,從而提升模型的推理能力。 響應長度的增加并非“頓悟”的直接標志,而是RL優化策略的體現。 未來研究需要更深入地探索模型的自我反思機制,以及如何有效地引導模型進行有效的自我反思。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺