<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B

        AIGC動態(tài)3個月前發(fā)布 機器之心
        315 0 0

        構建探索驅動的人類反饋強化學習對齊框架。

        ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B

        原標題:ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驅動的對齊方法,8B越級勝70B
        文章來源:機器之心
        內容字數(shù):7771字

        中國電信聯(lián)合清華等高校提出新型大模型對齊方法COPO

        本文總結了中國電信人工智能研究院(TeleAI)聯(lián)合清華大學等機構提出的新型探索驅動的大模型對齊方法COPO (Count-based Online Preference Optimization) 的核心要點。該方法旨在解決現(xiàn)有大型語言模型(LLM)對齊框架受限于偏好數(shù)據(jù)集覆蓋范圍的問題,提升LLM的性能和安全性。

        1. 研究背景及動機

        大型語言模型(LLM)在多種語言任務中表現(xiàn)出色,但在與人類價值觀和意圖對齊方面仍面臨挑戰(zhàn)。現(xiàn)有的基于人類反饋強化學習(RLHF)的框架依賴于預先收集的偏好數(shù)據(jù)集,其性能受限于數(shù)據(jù)集的覆蓋范圍。收集高質量的偏好數(shù)據(jù)集成本高昂,且難以覆蓋所有可能的提示和回復。因此,研究人員希望賦予LLM自主探索語言空間的能力,突破離線數(shù)據(jù)集的限制。

        2. COPO方法的核心思想

        COPO方法將人類的探索本能融入到LLM的后訓練中,通過在線RLHF框架引導模型主動探索尚未充分理解的知識。它結合了基于計數(shù)的探索(Count-based Exploration)和直接偏好優(yōu)化(DPO)框架,利用輕量級的偽計數(shù)模塊來平衡探索和偏好優(yōu)化。COPO在理論上證明了其在線學習范式能夠將總后悔值限制在O(√T)的量級內。

        3. 理論框架

        COPO的理論框架基于大模型獎勵的線性假設,將獎勵函數(shù)簡化為參數(shù)向量和特征向量的內積形式。通過極大似然估計來估計獎勵模型的參數(shù),并提供明確的誤差界限和置信集合。在參數(shù)集合中使用樂觀的期望值函數(shù),實現(xiàn)了強化學習探索中的樂觀原則。最終的優(yōu)化項包含兩部分:一部分對應經(jīng)典的兩階段RLHF方法,另一部分為新引入的置信區(qū)間上界(UCB)項,用于鼓勵模型探索尚未充分探索的語言空間。

        4. 算法設計

        COPO算法結合了DPO算法框架,將樂觀探索的UCB項轉化為更容易求解的目標。在有限狀態(tài)動作空間的假設下,樂觀探索項可以表示為基于狀態(tài)-動作計數(shù)的學習目標。COPO使用Coin Flipping Network (CFN)來高效實現(xiàn)偽計數(shù),CFN通過一個簡單的回歸問題來預測基于計數(shù)的探索獎勵,無需復雜的密度估計。

        5. 實驗結果

        實驗結果表明,COPO算法在AlpacaEval 2.0和MT-Bench基準測試中表現(xiàn)優(yōu)異。與離線DPO算法相比,COPO顯著提升了Zephyr-7B和Llama3-8B模型的LC勝率。COPO也超越了其他在線對齊方法,在指令遵循和泛化能力方面取得了顯著提升。

        6. 結論

        COPO方法通過賦予LLM自主探索能力,有效解決了現(xiàn)有對齊框架受限于數(shù)據(jù)集覆蓋范圍的問題,為大模型的多輪交互探索中的能力持續(xù)提升提供了重要技術支撐。該研究成果為“基于連接與交互的智能涌現(xiàn)”提供了重要技術支撐,具有重要的學術意義和應用價值。


        聯(lián)系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺

        閱讀原文
        ? 版權聲明
        Trae官網(wǎng)

        相關文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产片AV片永久免费观看| 中文字幕免费人成乱码中国| 最近中文字幕高清免费中文字幕mv| 亚洲综合国产一区二区三区| 日韩在线视频免费| 亚洲黄黄黄网站在线观看| 九九全国免费视频| 亚洲人成无码网站久久99热国产| 色婷婷综合缴情综免费观看| 久久久青草青青国产亚洲免观| 一本到卡二卡三卡免费高| 亚洲女初尝黑人巨高清| a毛片全部播放免费视频完整18| 亚洲va久久久噜噜噜久久| 99久久99热精品免费观看国产 | 中文字幕成人免费高清在线| 亚洲AV中文无码乱人伦下载| 一区二区三区四区免费视频 | 色吊丝性永久免费看码| 亚洲综合伊人久久综合| 免费观看久久精彩视频| 亚洲视频欧洲视频| 免费的一级黄色片| 伊人久久国产免费观看视频| 亚洲综合一区二区精品导航| 一个人免费观看www视频在线| 久久无码av亚洲精品色午夜| 中文字幕亚洲日韩无线码| 在免费jizzjizz在线播| 亚洲av永久中文无码精品| 国产成人亚洲综合无码| 91视频免费网址| 爱爱帝国亚洲一区二区三区| 亚洲国产另类久久久精品| 国产亚洲人成网站观看| 91成年人免费视频| 国产亚洲美女精品久久久久| 久久久久亚洲精品影视| 国产又长又粗又爽免费视频| 无码人妻久久一区二区三区免费 | 亚洲美女一区二区三区|