希望大家不要再感慨 SFT 沒價值了,也別感慨 RFT 真牛啊,完全追不上 OpenAI 之類的話,感慨無用。
RFT的理解與應用
在即將到來的智猩猩AI新青年講座中,清華大學在讀博士生李镕輝將分享關于《音樂驅動的高質量長序列舞蹈生成》的主題。此外,本文將探討對RFT(Reinforcement Fine-Tuning)的理解,基于OpenAI的直播及相關論文進行分析。
1. RFT的定義
RFT可以被理解為在給定prompt的基礎上,生成包含cot(chain of thought)的response,并通過一個verifier判斷其正確性,從而指導模型進行參數更新。與傳統的PPO(Proximal Policy Optimization)相比,RFT的關鍵創新在于使用rule-based reward_model作為返回信號。
2. RFT的價值
RFT的主要價值在于其能夠針對特定復雜任務創建專家模型。通過定制任務的verifier,RFT可以用更少的數據,甚至是十分之一的數據,輕松超越傳統SFT(Supervised Fine-Tuning)的結果。RFT特別適合于法律、保險、醫療等領域,這些領域通常有明確的“正確答案”。
3. 字節的ReFT
字節的ReFT可以被視為OpenAI RFT在數學任務上的簡化實現。ReFT的過程包括通過SFT獲得模型,生成帶cot的response,并根據答案的正確性進行評分和模型更新。盡管ReFT的創新看似平常,但其在o1之前的發表為其增添了價值。
4. RFT的影響
對于像字節這樣的算力大廠,RFT可以幫助其提升服務能力,因此需要緊跟這一技術發展。而對于普通從業者而言,短期內不會有太大變化,仍需進行SFT訓練。但長遠來看,需關注PPO的重要性,并調整學習方向。
5. 結語
希望大家對SFT的價值有新的認識,RFT雖是新技術,但并不意味著SFT失去意義。對RFT感興趣的讀者可以通過OpenRLHF代碼進行實踐,深入理解這一新興技術。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。