ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驅動的對齊方法，8B越級勝70B

構建探索驅動的人類反饋強化學習對齊框架。

原標題：ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驅動的對齊方法，8B越級勝70B
文章來源：機器之心
內容字數：7771字

中國電信聯合清華等高校提出新型大模型對齊方法COPO

本文總結了中國電信人工智能研究院（TeleAI）聯合清華大學等機構提出的新型探索驅動的大模型對齊方法COPO (Count-based Online Preference Optimization) 的核心要點。該方法旨在解決現有大型語言模型(LLM)對齊框架受限于偏好數據集覆蓋范圍的問題，提升LLM的性能和安全性。

1. 研究背景及動機

大型語言模型(LLM)在多種語言任務中表現出色，但在與人類價值觀和意圖對齊方面仍面臨挑戰。現有的基于人類反饋強化學習(RLHF)的框架依賴于預先收集的偏好數據集，其性能受限于數據集的覆蓋范圍。收集高質量的偏好數據集成本高昂，且難以覆蓋所有可能的提示和回復。因此，研究人員希望賦予LLM自主探索語言空間的能力，突破離線數據集的限制。

2. COPO方法的核心思想

COPO方法將人類的探索本能融入到LLM的后訓練中，通過在線RLHF框架引導模型主動探索尚未充分理解的知識。它結合了基于計數的探索(Count-based Exploration)和直接偏好優化(DPO)框架，利用輕量級的偽計數模塊來平衡探索和偏好優化。COPO在理論上證明了其在線學習范式能夠將總后悔值限制在O(√T)的量級內。

3. 理論框架

COPO的理論框架基于大模型獎勵的線性假設，將獎勵函數簡化為參數向量和特征向量的內積形式。通過極大似然估計來估計獎勵模型的參數，并提供明確的誤差界限和置信集合。在參數集合中使用樂觀的期望值函數，實現了強化學習探索中的樂觀原則。最終的優化項包含兩部分：一部分對應經典的兩階段RLHF方法，另一部分為新引入的置信區間上界(UCB)項，用于鼓勵模型探索尚未充分探索的語言空間。

4. 算法設計

COPO算法結合了DPO算法框架，將樂觀探索的UCB項轉化為更容易求解的目標。在有限狀態動作空間的假設下，樂觀探索項可以表示為基于狀態-動作計數的學習目標。COPO使用Coin Flipping Network (CFN)來高效實現偽計數，CFN通過一個簡單的回歸問題來預測基于計數的探索獎勵，無需復雜的密度估計。

5. 實驗結果

實驗結果表明，COPO算法在AlpacaEval 2.0和MT-Bench基準測試中表現優異。與離線DPO算法相比，COPO顯著提升了Zephyr-7B和Llama3-8B模型的LC勝率。COPO也超越了其他在線對齊方法，在指令遵循和泛化能力方面取得了顯著提升。

6. 結論

COPO方法通過賦予LLM自主探索能力，有效解決了現有對齊框架受限于數據集覆蓋范圍的問題，為大模型的多輪交互探索中的能力持續提升提供了重要技術支撐。該研究成果為“基于連接與交互的智能涌現”提供了重要技術支撐，具有重要的學術意義和應用價值。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 8B模型 # 大模型對齊 # 好奇心驅動的學習 # 探索驅動對齊 # 越級泛化

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驅動的對齊方法，8B越級勝70B

構建探索驅動的人類反饋強化學習對齊框架。

中國電信聯合清華等高校提出新型大模型對齊方法COPO

1. 研究背景及動機

2. COPO方法的核心思想

3. 理論框架

4. 算法設計

5. 實驗結果

6. 結論

聯系作者

卡內基梅隆學霸賣爆8千元AI鞋，現回浙江老家繼承家業！曾在勞斯萊斯一年做到leader

被無所不知的 ChatGPT 打敗后，我寫了一篇 AI「想不出」的文章

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點