AIGC動態歡迎閱讀
原標題:斯坦福最新理論研究:RLHF中獎勵過度優化現象也存在Scaling Laws
關鍵字:模型,算法,作者,現象,函數
文章來源:大數據文摘
內容字數:0字
內容摘要:
大數據文摘授權轉載自將門創投
作者:seven_
可以說,人類反饋強化學習 (RLHF) 是一把解鎖大型語言模型(LLMs)涌現能力的金鑰匙。它使擁有龐大參數規模的語言模型可以快速對齊到人類用戶定義的偏好空間中。然而,先前的RLHF算法通常是一個復雜而脆弱的過程。
在經典的 RLHF 框架中,我們首先需要訓練一個獎勵模型來表示人類偏好,然后再通過在線強化學習 (online RL) 算法使用該模型來優化LLM。此類方法的突出問題是獎勵過度優化現象(reward over-optimization)和獎勵攻擊(reward hacking)難題,雖然通過RL學習,獎勵模型對LLM評估得到的性能會增加,但部署到實際場景中,性能會停滯甚至會下降。后來,有研究者提出直接對齊算法(Direct Alignment Algorithms,DAAs)來繞過獎勵建模階段,以緩解上述現象。
目前,DDA已經成為經典 RLHF pipeline的替代方案,但DAA是否存在類似的過度優化現象尚未得到很好的探索,本文介紹一篇來自斯坦福大學等研究機構的理論性工作,本文表明的觀點在于,盡管 DAA 不使用單獨的獎
原文鏈接:斯坦福最新理論研究:RLHF中獎勵過度優化現象也存在Scaling Laws
聯系作者
文章來源:大數據文摘
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...