<label id="3dn8r"><mark id="3dn8r"></mark></label>

<span id="3dn8r"></span>

<span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

長文 | 大模型偏好對齊全家桶 – RL側

AIGC動態11個月前發布算法邦

479 0 0

長文 | 大模型偏好對齊全家桶 - RL側

AIGC動態歡迎閱讀

原標題：長文 | 大模型偏好對齊全家桶 – RL側
關鍵字：模型,答案,概率,知乎,操作
文章來源：算法邦
內容字數：0字

內容摘要：

今天給大家帶來一篇Reinforcement Learning from Human Feedback的全家桶，來自知乎@何枝（已授權）。
隨著 Llama3 的開源，人們對 Alignment 的重視程度又上一個階梯。作為 Alignment 家族中的核中核，RLHF 家族也開始變的繁榮昌盛，這對各位 RLer 來說可真是喜聞樂見。今天我們就一起來俯瞰一下當下 RLHF 都有些什么奇巧的魔改思路。
如今，LLM 中主流 RLHF 方向分為兩大路線：
以 PPO 為代表的 On Policy 路線
以 DPO 為代表的 Off Policy 路線
PPO:https://arxiv.org/pdf/1707.06347DPO:https://arxiv.org/pdf/2305.18290
那究竟什么是 On Policy，什么是 Off Policy 呢？
我們可以簡單理解為：凡是需要 LLM 在訓練過程中做 generation 的方法就是 On Policy，反之為 Off Policy。
我們通常會說 On Policy 的方更耗卡、訓練更耗時，這里的「耗時」主要就體現在模

原文鏈接：長文 | 大模型偏好對齊全家桶 – RL側

聯系作者

文章來源：算法邦
作者微信：allplusai
作者簡介：智猩猩矩陣賬號之一，聚焦生成式AI，重點關注模型與應用。

# AIGC動態 # 操作 # 概率 # 模型 # 知乎 # 答案

? 版權聲明

文章版權歸作者所有，未經允許請勿轉載。

Trae官網

相關文章

Trae官網

暫無評論

暫無評論...

主站蜘蛛池模板：日本在线免费播放| 亚洲一区二区三区高清不卡| 114一级毛片免费| 1000部国产成人免费视频| 女人被免费视频网站| 亚洲AV日韩AV天堂一区二区三区| 91亚洲性爱在线视频| 1000部禁片黄的免费看| 日本免费的一级v一片| 亚洲精品无码成人片久久不卡 | 免费一本色道久久一区| 免费久久精品国产片香蕉| 无码亚洲成a人在线观看| 免费乱码中文字幕网站| 一级看片免费视频| 国产成人免费网站| 久久伊人久久亚洲综合| 2021国内精品久久久久精免费| 亚洲人成高清在线播放| 精品免费国产一区二区| 亚洲精品偷拍视频免费观看| 亚洲成AV人片在线观看无码| 国产a视频精品免费观看| 亚洲经典千人经典日产| 99re视频精品全部免费| 亚洲国产精品一区二区第一页免 | 亚洲美女人黄网成人女| 国产卡二卡三卡四卡免费网址| 亚洲jizzjizz少妇| 奇米影视亚洲春色| 在线播放亚洲精品| 亚洲精品色午夜无码专区日韩| 一区免费在线观看| 国产又粗又长又硬免费视频| 成人av片无码免费天天看| 免费少妇a级毛片| 久久99精品免费视频| 亚洲日本一区二区三区| 嫩草视频在线免费观看| a级毛片黄免费a级毛片| 亚洲熟妇av午夜无码不卡|