僅靠開(kāi)源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:僅靠開(kāi)源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了
關(guān)鍵字:模型,研究人員,報(bào)告,數(shù)據(jù),離線
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6604字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者熊偉是伊利諾伊香檳分校的在讀博士生,其導(dǎo)師為 Tong Zhang 與 Nan Jiang。他的主要研究方向是 RLHF 與機(jī)器學(xué)習(xí)理論。郵箱: wx13@illinois.edu
基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 使得大語(yǔ)言模型的輸出能夠更加符合人類的目標(biāo)、期望與需求,是提升許多閉源語(yǔ)言模型 Chat-GPT, Claude, Gemini 表現(xiàn)的核心方法之一。在此之前,傳統(tǒng)的開(kāi)源解決方案是基于離線數(shù)據(jù)集的直接偏好優(yōu)化 (DPO),并獲得了一系列的明顯超出 SFT 的開(kāi)源模型。然而,在過(guò)去的幾個(gè)月中,許多研究表現(xiàn),在線迭代版本的 RLHF 算法通常要明顯超過(guò)他們的離線版本。與此同時(shí),開(kāi)源社區(qū)在這個(gè)領(lǐng)域暫時(shí)還沒(méi)有一個(gè)完整的、易于復(fù)現(xiàn)的全流程解決方案
原文鏈接:僅靠開(kāi)源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)