<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B

        AIGC動態6個月前發布 機器之心
        316 0 0

        構建探索驅動的人類反饋強化學習對齊框架。

        ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B

        原標題:ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B
        文章來源:機器之心
        內容字數:7771字

        中國電信聯合清華等高校提出新型大模型對齊方法COPO

        本文總結了中國電信人工智能研究院(TeleAI)聯合清華大學等機構提出的新型探索驅動的大模型對齊方法COPO (Count-based Online Preference Optimization) 的核心要點。該方法旨在解決現有大型語言模型(LLM)對齊框架受限于偏好數據集覆蓋范圍的問題,提升LLM的性能和安全性。

        1. 研究背景及動機

        大型語言模型(LLM)在多種語言任務中表現出色,但在與人類價值觀和意圖對齊方面仍面臨挑戰。現有的基于人類反饋強化學習(RLHF)的框架依賴于預先收集的偏好數據集,其性能受限于數據集的覆蓋范圍。收集高質量的偏好數據集成本高昂,且難以覆蓋所有可能的提示和回復。因此,研究人員希望賦予LLM自主探索語言空間的能力,突破離線數據集的限制。

        2. COPO方法的核心思想

        COPO方法將人類的探索本能融入到LLM的后訓練中,通過在線RLHF框架引導模型主動探索尚未充分理解的知識。它結合了基于計數的探索(Count-based Exploration)和直接偏好優化(DPO)框架,利用輕量級的偽計數模塊來平衡探索和偏好優化。COPO在理論上證明了其在線學習范式能夠將總后悔值限制在O(√T)的量級內。

        3. 理論框架

        COPO的理論框架基于大模型獎勵的線性假設,將獎勵函數簡化為參數向量和特征向量的內積形式。通過極大似然估計來估計獎勵模型的參數,并提供明確的誤差界限和置信集合。在參數集合中使用樂觀的期望值函數,實現了強化學習探索中的樂觀原則。最終的優化項包含兩部分:一部分對應經典的兩階段RLHF方法,另一部分為新引入的置信區間上界(UCB)項,用于鼓勵模型探索尚未充分探索的語言空間。

        4. 算法設計

        COPO算法結合了DPO算法框架,將樂觀探索的UCB項轉化為更容易求解的目標。在有限狀態動作空間的假設下,樂觀探索項可以表示為基于狀態-動作計數的學習目標。COPO使用Coin Flipping Network (CFN)來高效實現偽計數,CFN通過一個簡單的回歸問題來預測基于計數的探索獎勵,無需復雜的密度估計。

        5. 實驗結果

        實驗結果表明,COPO算法在AlpacaEval 2.0和MT-Bench基準測試中表現優異。與離線DPO算法相比,COPO顯著提升了Zephyr-7B和Llama3-8B模型的LC勝率。COPO也超越了其他在線對齊方法,在指令遵循和泛化能力方面取得了顯著提升。

        6. 結論

        COPO方法通過賦予LLM自主探索能力,有效解決了現有對齊框架受限于數據集覆蓋范圍的問題,為大模型的多輪交互探索中的能力持續提升提供了重要技術支撐。該研究成果為“基于連接與交互的智能涌現”提供了重要技術支撐,具有重要的學術意義和應用價值。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV无码不卡在线观看下载| 97在线视频免费公开视频| 亚洲中文字幕无码爆乳av中文| 69式互添免费视频| 四虎国产精品成人免费久久| 亚洲13又紧又嫩又水多| 国产AV无码专区亚洲AV男同| 久久久久亚洲av毛片大| 免费v片在线观看| 国产免费小视频在线观看| 欧美男同gv免费网站观看| 久久九九兔免费精品6| 久久大香香蕉国产免费网站 | XXX2高清在线观看免费视频| 精品无码专区亚洲| 在线观看亚洲专区| 一级特黄a大片免费| aaa毛片免费观看| 嫩草在线视频www免费看| 亚欧日韩毛片在线看免费网站| 九九热久久免费视频| 99视频精品全部免费观看| 91精品国产免费久久国语蜜臀 | 亚洲国产av一区二区三区丶| 亚洲视频免费一区| 丰满亚洲大尺度无码无码专线 | 亚洲乱理伦片在线观看中字| 黄色一级毛片免费| 日本免费久久久久久久网站| **aaaaa毛片免费| 波多野结衣一区二区免费视频| 久久亚洲国产成人精品无码区| 亚洲高清资源在线观看| 亚洲人成网站18禁止| 免费无码又爽又刺激高潮软件| 亚洲精品免费在线| 精品亚洲成α人无码成α在线观看| 久久久久久久久亚洲| 日韩大片免费观看视频播放| 最近高清中文字幕免费| 亚洲熟伦熟女新五十路熟妇 |