打破RLHF瓶頸，克服獎勵！Meta發(fā)布全新后訓練方式CGPO，編程水平直升5%

打破RLHF瓶頸，克服獎勵欺騙！Meta發(fā)布全新后訓練方式CGPO，編程水平直升5%

AIGC動態(tài)歡迎閱讀

原標題：打破RLHF瓶頸，克服獎勵！Meta發(fā)布全新后訓練方式CGPO，編程水平直升5%
關(guān)鍵字：任務,模型,目標,機制,高效
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：LRST
【新智元導讀】CGPO框架通過混合評審機制和約束優(yōu)化器，有效解決了RLHF在多任務學習中的獎勵和多目標優(yōu)化問題，顯著提升了語言模型在多任務環(huán)境中的表現(xiàn)。CGPO的設計為未來多任務學習提供了新的優(yōu)化路徑，有望進一步提升大型語言模型的效能和穩(wěn)定性。近年來，隨著大規(guī)模語言模型（LLMs）的發(fā)展，特別是通用大模型的應用場景愈發(fā)廣泛，RLHF逐漸成為調(diào)整和優(yōu)化語言模型輸出的主流方法。
盡管RLHF在處理復雜任務時表現(xiàn)出色，但其在多任務學習（MTL）中的表現(xiàn)卻受限于「獎勵」以及多目標優(yōu)化中的矛盾問題。
傳統(tǒng)的RLHF方法依賴于線性組合的獎勵模型，不僅需要人工調(diào)參，且容易導致模型被某一任務的獎勵優(yōu)化「誤導」。
最近Meta GenAI和FAIR團隊提出了一個全新的后訓練范式——Constrained Generative Policy Optimization （CGPO），通過引入「混合評審機制」（Mixture of Judges, MoJ）與高效的約束優(yōu)化器，全面提升了RLHF在多任務環(huán)境中的表現(xiàn)。論文鏈接：https://arxiv.org/pdf/240

原文鏈接：打破RLHF瓶頸，克服獎勵！Meta發(fā)布全新后訓練方式CGPO，編程水平直升5%