打破RLHF瓶頸,克服獎勵!Meta發(fā)布全新后訓練方式CGPO,編程水平直升5%
AIGC動態(tài)歡迎閱讀
原標題:打破RLHF瓶頸,克服獎勵!Meta發(fā)布全新后訓練方式CGPO,編程水平直升5%
關(guān)鍵字:任務,模型,目標,機制,高效
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:LRST
【新智元導讀】CGPO框架通過混合評審機制和約束優(yōu)化器,有效解決了RLHF在多任務學習中的獎勵和多目標優(yōu)化問題,顯著提升了語言模型在多任務環(huán)境中的表現(xiàn)。CGPO的設計為未來多任務學習提供了新的優(yōu)化路徑,有望進一步提升大型語言模型的效能和穩(wěn)定性。近年來,隨著大規(guī)模語言模型(LLMs)的發(fā)展,特別是通用大模型的應用場景愈發(fā)廣泛,RLHF逐漸成為調(diào)整和優(yōu)化語言模型輸出的主流方法。
盡管RLHF在處理復雜任務時表現(xiàn)出色,但其在多任務學習(MTL)中的表現(xiàn)卻受限于「獎勵」以及多目標優(yōu)化中的矛盾問題。
傳統(tǒng)的RLHF方法依賴于線性組合的獎勵模型,不僅需要人工調(diào)參,且容易導致模型被某一任務的獎勵優(yōu)化「誤導」。
最近Meta GenAI和FAIR團隊提出了一個全新的后訓練范式——Constrained Generative Policy Optimization (CGPO),通過引入「混合評審機制」(Mixture of Judges, MoJ)與高效的約束優(yōu)化器,全面提升了RLHF在多任務環(huán)境中的表現(xiàn)。論文鏈接:https://arxiv.org/pdf/240
原文鏈接:打破RLHF瓶頸,克服獎勵!Meta發(fā)布全新后訓練方式CGPO,編程水平直升5%
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: