ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B
構建探索驅動的人類反饋強化學習對齊框架。
原標題:ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B
文章來源:機器之心
內容字數(shù):7771字
中國電信聯(lián)合清華等高校提出新型大模型對齊方法COPO
本文總結了中國電信人工智能研究院(TeleAI)聯(lián)合清華大學等機構提出的新型探索驅動的大模型對齊方法COPO (Count-based Online Preference Optimization) 的核心要點。該方法旨在解決現(xiàn)有大型語言模型(LLM)對齊框架受限于偏好數(shù)據(jù)集覆蓋范圍的問題,提升LLM的性能和安全性。
1. 研究背景及動機
大型語言模型(LLM)在多種語言任務中表現(xiàn)出色,但在與人類價值觀和意圖對齊方面仍面臨挑戰(zhàn)。現(xiàn)有的基于人類反饋強化學習(RLHF)的框架依賴于預先收集的偏好數(shù)據(jù)集,其性能受限于數(shù)據(jù)集的覆蓋范圍。收集高質量的偏好數(shù)據(jù)集成本高昂,且難以覆蓋所有可能的提示和回復。因此,研究人員希望賦予LLM自主探索語言空間的能力,突破離線數(shù)據(jù)集的限制。
2. COPO方法的核心思想
COPO方法將人類的探索本能融入到LLM的后訓練中,通過在線RLHF框架引導模型主動探索尚未充分理解的知識。它結合了基于計數(shù)的探索(Count-based Exploration)和直接偏好優(yōu)化(DPO)框架,利用輕量級的偽計數(shù)模塊來平衡探索和偏好優(yōu)化。COPO在理論上證明了其在線學習范式能夠將總后悔值限制在O(√T)的量級內。
3. 理論框架
COPO的理論框架基于大模型獎勵的線性假設,將獎勵函數(shù)簡化為參數(shù)向量和特征向量的內積形式。通過極大似然估計來估計獎勵模型的參數(shù),并提供明確的誤差界限和置信集合。在參數(shù)集合中使用樂觀的期望值函數(shù),實現(xiàn)了強化學習探索中的樂觀原則。最終的優(yōu)化項包含兩部分:一部分對應經(jīng)典的兩階段RLHF方法,另一部分為新引入的置信區(qū)間上界(UCB)項,用于鼓勵模型探索尚未充分探索的語言空間。
4. 算法設計
COPO算法結合了DPO算法框架,將樂觀探索的UCB項轉化為更容易求解的目標。在有限狀態(tài)動作空間的假設下,樂觀探索項可以表示為基于狀態(tài)-動作計數(shù)的學習目標。COPO使用Coin Flipping Network (CFN)來高效實現(xiàn)偽計數(shù),CFN通過一個簡單的回歸問題來預測基于計數(shù)的探索獎勵,無需復雜的密度估計。
5. 實驗結果
實驗結果表明,COPO算法在AlpacaEval 2.0和MT-Bench基準測試中表現(xiàn)優(yōu)異。與離線DPO算法相比,COPO顯著提升了Zephyr-7B和Llama3-8B模型的LC勝率。COPO也超越了其他在線對齊方法,在指令遵循和泛化能力方面取得了顯著提升。
6. 結論
COPO方法通過賦予LLM自主探索能力,有效解決了現(xiàn)有對齊框架受限于數(shù)據(jù)集覆蓋范圍的問題,為大模型的多輪交互探索中的能力持續(xù)提升提供了重要技術支撐。該研究成果為“基于連接與交互的智能涌現(xiàn)”提供了重要技術支撐,具有重要的學術意義和應用價值。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺