復(fù)旦發(fā)布層次性獎勵學(xué)習(xí)框架,增強(qiáng)大模型人類偏好對齊
AIGC動態(tài)歡迎閱讀
原標(biāo)題:復(fù)旦發(fā)布層次性獎勵學(xué)習(xí)框架,增強(qiáng)大模型人類偏好對齊
關(guān)鍵字:方面,任務(wù),框架,人類,模型
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):9099字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 松果引言:人類反饋中的層次化獎勵在強(qiáng)化學(xué)習(xí)中的新探索在人工智能領(lǐng)域,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)一直是實現(xiàn)智能體自主學(xué)習(xí)的關(guān)鍵技術(shù)之一。通過與環(huán)境的交互,智能體能夠自我優(yōu)化其行為策略,以獲得更多的獎勵。然而,當(dāng)涉及到復(fù)雜的人類偏好時,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法面臨著挑戰(zhàn)。這些挑戰(zhàn)主要源于人類監(jiān)督信號的不一致性和稀疏性,這使得智能體難以準(zhǔn)確地對齊人類的期望。
為了解決這一問題,研究者們提出了從人類反饋中學(xué)習(xí)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)方法。RLHF通過利用人類標(biāo)注的比較數(shù)據(jù)來微調(diào)大語言模型(LLMs),以更好地與人類偏好對齊。然而,人類標(biāo)注在評估兩個或更多模型輸出時可能存在不一致和不可靠的問題。這些問題導(dǎo)致了RLHF中不穩(wěn)定的獎勵信號,而穩(wěn)定的獎勵是成功強(qiáng)化學(xué)習(xí)的關(guān)鍵。
為了應(yīng)對這些挑戰(zhàn),本文介紹了一種新的框架——ALARM(Align Language Models via Hierarchical Rewards Modeling),它是首個在RL
原文鏈接:復(fù)旦發(fā)布層次性獎勵學(xué)習(xí)框架,增強(qiáng)大模型人類偏好對齊
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)湫袠I(yè)嗅覺與報道深度。
相關(guān)文章
