
AIGC動態歡迎閱讀
原標題:打破RLHF瓶頸,克服獎勵!Meta發布全新后訓練方式CGPO,編程水平直升5%
關鍵字:任務,模型,目標,機制,高效
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRST
【新智元導讀】CGPO框架通過混合評審機制和約束優化器,有效解決了RLHF在多任務學習中的獎勵和多目標優化問題,顯著提升了語言模型在多任務環境中的表現。CGPO的設計為未來多任務學習提供了新的優化路徑,有望進一步提升大型語言模型的效能和穩定性。近年來,隨著大規模語言模型(LLMs)的發展,特別是通用大模型的應用場景愈發廣泛,RLHF逐漸成為調整和優化語言模型輸出的主流方法。
盡管RLHF在處理復雜任務時表現出色,但其在多任務學習(MTL)中的表現卻受限于「獎勵」以及多目標優化中的矛盾問題。
傳統的RLHF方法依賴于線性組合的獎勵模型,不僅需要人工調參,且容易導致模型被某一任務的獎勵優化「誤導」。
最近Meta GenAI和FAIR團隊提出了一個全新的后訓練范式——Constrained Generative Policy Optimization (CGPO),通過引入「混合評審機制」(Mixture of Judges, MoJ)與高效的約束優化器,全面提升了RLHF在多任務環境中的表現。論文鏈接:https://arxiv.org/pdf/240
原文鏈接:打破RLHF瓶頸,克服獎勵!Meta發布全新后訓練方式CGPO,編程水平直升5%
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號