長(zhǎng)文 | 大模型偏好對(duì)齊全家桶 – RL側(cè)

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:長(zhǎng)文 | 大模型偏好對(duì)齊全家桶 – RL側(cè)
關(guān)鍵字:模型,答案,概率,知乎,操作
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
今天給大家?guī)?lái)一篇Reinforcement Learning from Human Feedback的全家桶,來(lái)自知乎@何枝(已授權(quán))。
隨著 Llama3 的開源,人們對(duì) Alignment 的重視程度又上一個(gè)階梯。作為 Alignment 家族中的核中核,RLHF 家族也開始變的繁榮昌盛,這對(duì)各位 RLer 來(lái)說(shuō)可真是喜聞樂(lè)見。今天我們就一起來(lái)俯瞰一下當(dāng)下 RLHF 都有些什么奇巧的魔改思路。
如今,LLM 中主流 RLHF 方向分為兩大路線:
以 PPO 為代表的 On Policy 路線
以 DPO 為代表的 Off Policy 路線
PPO:https://arxiv.org/pdf/1707.06347DPO:https://arxiv.org/pdf/2305.18290
那究竟什么是 On Policy,什么是 Off Policy 呢?
我們可以簡(jiǎn)單理解為:凡是需要 LLM 在訓(xùn)練過(guò)程中做 generation 的方法就是 On Policy,反之為 Off Policy。
我們通常會(huì)說(shuō) On Policy 的方更耗卡、訓(xùn)練更耗時(shí),這里的「耗時(shí)」主要就體現(xiàn)在模
原文鏈接:長(zhǎng)文 | 大模型偏好對(duì)齊全家桶 – RL側(cè)
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。

粵公網(wǎng)安備 44011502001135號(hào)