如果我搬出RLHF+GAN這個設定,你如何應對
AIGC動態(tài)歡迎閱讀
原標題:如果我搬出RLHF+GAN這個設定,你如何應對
關鍵字:模型,數(shù)據(jù),騰訊,樣本,方法
文章來源:算法邦
內(nèi)容字數(shù):10403字
內(nèi)容摘要:
前陣子騰訊AI Lab悄悄掛出了一篇文章:Adversarial Preference Optimization (APO)[1],看到設定我就驚呆了:RLHF+GAN,難道還嫌RLHF本身不夠難訓嗎?但讀下來發(fā)現(xiàn)作者其實是想解決RLHF一個很重要的問題,而且給出的方法既fancy又優(yōu)雅。
下面,我們直接有請一作本人程鵬宇大佬來講一下心路歷程??。
注:文中有公式,請切換到白色背景查看。01RLHF辛酸淚先從RLHF的任務講起吧,RLHF的全稱是 reinforcement learning from human feedback。字面意思就是用RL的方法把大模型訓練得更加符合人們的反饋。這里反饋其實就是人們對大模型回復質(zhì)量的評價。還是蠻主觀的一件事,尤其是對一些開放性問題,其實很難講大模型的回復到底好到什么程度。但是如果對同一個問題給出兩個回復,通過對比人們至少能在兩個回復里挑出一個更好的,這大概就是所謂的“沒有比較就沒有傷害”吧。
于是人類反饋數(shù)據(jù)都長成了一個問題和兩個比較過的回復的格式。因為每次反饋就是從兩個回復里挑個更好的,代表了標注人員的偏好,所以RLHF解決的任務也被稱為偏
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發(fā),提供技術文章、講座、在線研討會。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...