探索強化微調RFT：PPO驅動的新應用

希望大家不要再感慨 SFT 沒價值了，也別感慨 RFT 真牛啊，完全追不上 OpenAI 之類的話，感慨無用。

探索強化微調RFT：PPO驅動的新應用革命

原標題：聊聊對強化微調RFT的理解及看法：PPO 下的新應用范式
文章來源：智猩猩GenAI
內容字數(shù)：3953字

RFT的理解與應用

在即將到來的智猩猩AI新青年講座中，清華大學在讀博士生李镕輝將分享關于《音樂驅動的高質量長序列舞蹈生成》的主題。此外，本文將探討對RFT（Reinforcement Fine-Tuning）的理解，基于OpenAI的直播及相關論文進行分析。

1. RFT的定義

RFT可以被理解為在給定prompt的基礎上，生成包含cot（chain of thought）的response，并通過一個verifier判斷其正確性，從而指導模型進行參數(shù)更新。與傳統(tǒng)的PPO（Proximal Policy Optimization）相比，RFT的關鍵創(chuàng)新在于使用rule-based reward_model作為返回信號。

2. RFT的價值

RFT的主要價值在于其能夠針對特定復雜任務創(chuàng)建專家模型。通過定制任務的verifier，RFT可以用更少的數(shù)據(jù)，甚至是十分之一的數(shù)據(jù)，輕松超越傳統(tǒng)SFT（Supervised Fine-Tuning）的結果。RFT特別適合于法律、保險、醫(yī)療等領域，這些領域通常有明確的“正確答案”。

3. 字節(jié)的ReFT

字節(jié)的ReFT可以被視為OpenAI RFT在數(shù)學任務上的簡化實現(xiàn)。ReFT的過程包括通過SFT獲得模型，生成帶cot的response，并根據(jù)答案的正確性進行評分和模型更新。盡管ReFT的創(chuàng)新看似平常，但其在o1之前的發(fā)表為其增添了價值。

4. RFT的影響

對于像字節(jié)這樣的算力大廠，RFT可以幫助其提升服務能力，因此需要緊跟這一技術發(fā)展。而對于普通從業(yè)者而言，短期內不會有太大變化，仍需進行SFT訓練。但長遠來看，需關注PPO的重要性，并調整學習方向。

5. 結語

希望大家對SFT的價值有新的認識，RFT雖是新技術，但并不意味著SFT失去意義。對RFT感興趣的讀者可以通過OpenRLHF代碼進行實踐，深入理解這一新興技術。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

閱讀原文

# AIGC動態(tài)# PPO # RFT # 人工智能 # 應用范式 # 強化微調

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

探索強化微調RFT：PPO驅動的新應用

希望大家不要再感慨 SFT 沒價值了，也別感慨 RFT 真牛啊，完全追不上 OpenAI 之類的話，感慨無用。

RFT的理解與應用

1. RFT的定義

2. RFT的價值

3. 字節(jié)的ReFT

4. RFT的影響

5. 結語

聯(lián)系作者

未來互聯(lián)網的變革：Perplexity首席執(zhí)行官對人工智能與搜索的洞察

《黑神話：悟空》無緣年度最佳，游戲奧斯卡被罵上熱搜

相關文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點