AIGC動態歡迎閱讀
內容摘要:
今天給大家帶來一篇Reinforcement Learning from Human Feedback的全家桶,來自知乎@何枝(已授權)。
隨著 Llama3 的開源,人們對 Alignment 的重視程度又上一個階梯。作為 Alignment 家族中的核中核,RLHF 家族也開始變的繁榮昌盛,這對各位 RLer 來說可真是喜聞樂見。今天我們就一起來俯瞰一下當下 RLHF 都有些什么奇巧的魔改思路。
如今,LLM 中主流 RLHF 方向分為兩大路線:
以 PPO 為代表的 On Policy 路線
以 DPO 為代表的 Off Policy 路線
PPO:https://arxiv.org/pdf/1707.06347DPO:https://arxiv.org/pdf/2305.18290
那究竟什么是 On Policy,什么是 Off Policy 呢?
我們可以簡單理解為:凡是需要 LLM 在訓練過程中做 generation 的方法就是 On Policy,反之為 Off Policy。
我們通常會說 On Policy 的方更耗卡、訓練更耗時,這里的「耗時」主要就體現在模
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...