谷歌發布West-of-N，利用合成數據，顯著提升LLM獎勵模型質量 | 今日Arxiv最熱大模型論文

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：谷歌發布West-of-N，利用合成數據，顯著提升LLM獎勵模型質量 | 今日Arxiv最熱大模型論文
關鍵字：解讀,模型,數據,政策,人類
文章來源：夕小瑤科技說
內容字數：9597字

內容摘要：

夕小瑤科技說原創作者 | 賽博馬良人類審核員 | 松果導語：論文提出了一種新的通過生成合成偏好數據來提升獎勵模型質量的方法，引入了一種自我訓練策略，通過篩選最優和最差候選來生成偏好對。實驗證明，這種方法可以提高任何獎勵模型的性能，效果類似于添加同等量的人類偏好數據。這為改善人類反饋強化學習（RLHF）在語言模型對齊上提供了新的研究方向。
引言：人類反饋對語言模型的影響在人工智能領域，語言模型的發展已經達到了令人矚目的水平，它們能夠生成流暢、連貫且在很多情況下幾乎無法與人類寫作有所區分的文本。然而，要使這些模型的輸出與人類的價值觀保持一致，就需要一種方法來引導它們產生更受人類歡迎和認可的結果。這種方法通常是通過人類反饋來實現的，即通過從人類反饋中學習（Reinforcement Learning from Human Feedback, RLHF）的方式，來調整模型的響應結果，使其更符合人類的偏好。
人類反饋在這個過程中扮演了至關重要的角色。它不僅涉及到收集數據的成本和時間，還包括如何準確地建模人類的偏好。這些偏好是主觀的、復雜的，并且依賴于文本質量。因此，如何有效地生成和利用這些數據

原文鏈接：谷歌發布West-of-N，利用合成數據，顯著提升LLM獎勵模型質量 | 今日Arxiv最熱大模型論文