如果我搬出RLHF+GAN這個設定，你如何應對

AIGC動態(tài)2年前 (2024)發(fā)布算法邦

AIGC動態(tài)歡迎閱讀

原標題：如果我搬出RLHF+GAN這個設定，你如何應對
關鍵字：模型,數(shù)據(jù),騰訊,樣本,方法
文章來源：算法邦
內(nèi)容字數(shù)：10403字

內(nèi)容摘要：

前陣子騰訊AI Lab悄悄掛出了一篇文章：Adversarial Preference Optimization (APO)[1]，看到設定我就驚呆了：RLHF+GAN，難道還嫌RLHF本身不夠難訓嗎？但讀下來發(fā)現(xiàn)作者其實是想解決RLHF一個很重要的問題，而且給出的方法既fancy又優(yōu)雅。
下面，我們直接有請一作本人程鵬宇大佬來講一下心路歷程??。
注：文中有公式，請切換到白色背景查看。01RLHF辛酸淚先從RLHF的任務講起吧，RLHF的全稱是 reinforcement learning from human feedback。字面意思就是用RL的方法把大模型訓練得更加符合人們的反饋。這里反饋其實就是人們對大模型回復質(zhì)量的評價。還是蠻主觀的一件事，尤其是對一些開放性問題，其實很難講大模型的回復到底好到什么程度。但是如果對同一個問題給出兩個回復，通過對比人們至少能在兩個回復里挑出一個更好的，這大概就是所謂的“沒有比較就沒有傷害”吧。
于是人類反饋數(shù)據(jù)都長成了一個問題和兩個比較過的回復的格式。因為每次反饋就是從兩個回復里挑個更好的，代表了標注人員的偏好，所以RLHF解決的任務也被稱為偏

原文鏈接：如果我搬出RLHF+GAN這個設定，你如何應對