增強模型在多樣化場景中的適應能?
原標題:推理時也能做偏好優化,無需額外重訓練,來自上海AI Lab港中文等
文章來源:量子位
內容字數:5822字
推理時偏好優化(TPO):一種無需重新訓練的對齊大語言模型的新方法
隨著大語言模型(LLMs)的快速發展,如何確保其輸出既符合預期又安全成為關鍵挑戰。傳統的偏好對齊方法,例如基于人類反饋的強化學習(RLHF)和直接偏好優化(DPO),需要在訓練過程中更新模型參數,靈活性不足。為了解決這一問題,上海人工智能實驗室、香港中文大學等機構聯合提出了一種名為推理時偏好優化(TPO)的新方法。
1. TPO的核心思想
TPO的核心在于將模型對齊過程從訓練階段轉移到推理階段。它通過在推理階段與獎勵模型交互,利用可解釋的文本反饋迭代優化模型輸出,從而實現即時模型對齊,而無需重新訓練模型參數。這使得TPO能夠靈活適應不斷變化的數據和需求。
2. TPO的優勢
TPO具有以下幾個顯著優勢:
- 推理時對齊,無需訓練:TPO在推理階段與獎勵模型交互,無需更新模型參數,節省了大量的計算資源和時間。
- 基于文本反饋:TPO使用可解釋的文本反饋,而非純數值梯度,讓模型能夠“理解”并“執行”文本評價,提高了對齊的透明度。
- 優于傳統方法:實驗結果表明,TPO能夠有效提升未對齊模型的表現,甚至超越經過訓練的對齊模型。
- 靈活適應性:TPO能夠靈活應對不斷變化的數據和需求,具有較強的適應性,并在資源有限的環境下高效運行。
3. TPO的工作機制
TPO借鑒了標準梯度優化方法的思路,包含四個關鍵組件:變量定義、損失計算、梯度計算和變量優化。它使用獎勵模型作為人類偏好的代理,提供生成回復質量的反饋。通過迭代調整輸出,逐步使其更符合獎勵模型的偏好。具體過程包括:初始化、文本損失函數定義、文本梯度計算和迭代優化四個步驟。TPO通過將獎勵模型的信號轉化為“文本損失”和“文本梯度”,指導模型生成更符合預期的回復。
4. 實驗結果與分析
研究人員在多個基準測試中評估了TPO的性能。結果表明,TPO顯著提升了未對齊模型Llama-3.1-70B-SFT的性能,使其達到了與已對齊模型Llama-3.1-70B-Instruct相當甚至更好的水平。同時,TPO也進一步增強了已對齊模型的性能。此外,TPO還展現出良好的推理穩定性和計算效率。
5. 結論與未來展望
TPO提供了一種輕量、高效且可解釋的大語言模型偏好對齊方案。它無需重新訓練,即可實現模型與人類偏好的對齊,并具有良好的靈活性和適應性。未來研究可以集中在優化文本交互方法、探索更魯棒的獎勵模型以及提升較弱模型在TPO中的表現等方向。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破