推理時也能做偏好優化，無需額外重訓練，來自上海AI Lab港中文等

增強模型在多樣化場景中的適應能?

原標題：推理時也能做偏好優化，無需額外重訓練，來自上海AI Lab港中文等
文章來源：量子位
內容字數：5822字

推理時偏好優化（TPO）：一種無需重新訓練的對齊大語言模型的新方法

隨著大語言模型（LLMs）的快速發展，如何確保其輸出既符合預期又安全成為關鍵挑戰。傳統的偏好對齊方法，例如基于人類反饋的強化學習（RLHF）和直接偏好優化（DPO），需要在訓練過程中更新模型參數，靈活性不足。為了解決這一問題，上海人工智能實驗室、香港中文大學等機構聯合提出了一種名為推理時偏好優化（TPO）的新方法。

1. TPO的核心思想

TPO的核心在于將模型對齊過程從訓練階段轉移到推理階段。它通過在推理階段與獎勵模型交互，利用可解釋的文本反饋迭代優化模型輸出，從而實現即時模型對齊，而無需重新訓練模型參數。這使得TPO能夠靈活適應不斷變化的數據和需求。

2. TPO的優勢

TPO具有以下幾個顯著優勢：

推理時對齊，無需訓練：TPO在推理階段與獎勵模型交互，無需更新模型參數，節省了大量的計算資源和時間。
基于文本反饋：TPO使用可解釋的文本反饋，而非純數值梯度，讓模型能夠“理解”并“執行”文本評價，提高了對齊的透明度。
優于傳統方法：實驗結果表明，TPO能夠有效提升未對齊模型的表現，甚至超越經過訓練的對齊模型。
靈活適應性：TPO能夠靈活應對不斷變化的數據和需求，具有較強的適應性，并在資源有限的環境下高效運行。

3. TPO的工作機制

TPO借鑒了標準梯度優化方法的思路，包含四個關鍵組件：變量定義、損失計算、梯度計算和變量優化。它使用獎勵模型作為人類偏好的代理，提供生成回復質量的反饋。通過迭代調整輸出，逐步使其更符合獎勵模型的偏好。具體過程包括：初始化、文本損失函數定義、文本梯度計算和迭代優化四個步驟。TPO通過將獎勵模型的信號轉化為“文本損失”和“文本梯度”，指導模型生成更符合預期的回復。

4. 實驗結果與分析

研究人員在多個基準測試中評估了TPO的性能。結果表明，TPO顯著提升了未對齊模型Llama-3.1-70B-SFT的性能，使其達到了與已對齊模型Llama-3.1-70B-Instruct相當甚至更好的水平。同時，TPO也進一步增強了已對齊模型的性能。此外，TPO還展現出良好的推理穩定性和計算效率。

5. 結論與未來展望

TPO提供了一種輕量、高效且可解釋的大語言模型偏好對齊方案。它無需重新訓練，即可實現模型與人類偏好的對齊，并具有良好的靈活性和適應性。未來研究可以集中在優化文本交互方法、探索更魯棒的獎勵模型以及提升較弱模型在TPO中的表現等方向。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 少樣本學習 # 推理時偏好優化 # 提示工程 # 無需額外重訓練 # 模型微調

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

推理時也能做偏好優化，無需額外重訓練，來自上海AI Lab港中文等

增強模型在多樣化場景中的適應能?

推理時偏好優化（TPO）：一種無需重新訓練的對齊大語言模型的新方法

1. TPO的核心思想

2. TPO的優勢

3. TPO的工作機制

4. 實驗結果與分析

5. 結論與未來展望

聯系作者

AI意識更進一步！谷歌DeepMind等：LLM不僅能感受痛苦，還能趨利避害

飛書接入DeepSeek-R1后，用一次頂一萬次，而且再也不「服務器繁忙」了

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

推理時也能做偏好優化，無需額外重訓練，來自上海AI Lab港中文等

增強模型在多樣化場景中的適應能?

推理時偏好優化（TPO）：一種無需重新訓練的對齊大語言模型的新方法

1. TPO的核心思想

2. TPO的優勢

3. TPO的工作機制

4. 實驗結果與分析

5. 結論與未來展望

聯系作者

AI意識更進一步！谷歌DeepMind等：LLM不僅能感受痛苦，還能趨利避害

飛書接入DeepSeek-R1后，用一次頂一萬次，而且再也不「服務器繁忙」了

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

推理時也能做偏好優化，無需額外重訓練，來自上海AI Lab港中文等

AI意識更進一步！谷歌DeepMind等：LLM不僅能感受痛苦，還能趨利避害

飛書接入DeepSeek-R1后，用一次頂一萬次，而且再也不「服務器繁忙」了