国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

突破!自然語言強化學習(NLRL):一個可處理語言反饋的強化學習框架

AIGC動態9個月前發布 機器之心
469 0 0

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本論文由倫敦大學學院、上海交通大學、布朗大學、布里斯托大學、新加坡國立大學以及薩里大學的研究者合作完成。馮熙棟是論文第一作者,即將畢業于倫敦大學學院。目前是Google DeepMind的Research Scientist,主要研究方向包括強化學習與生成模型。劉博是本推文作者,新加坡國立大學二年級博士生,研究強化學習、推理及機器學習系統在復雜現實環境中的應用。在人工智能發展史上,強化學習 (RL) 憑借其嚴謹的數學框架解決了眾多復雜的決策問題,從圍棋、國際象棋到機器人控制等領域都取得了突破性進展。然而,隨著應用場景日益復雜,傳統強化學習過度依賴單一數值獎勵的局限性日益凸顯。在現實世界中,反饋信號往往是多維度、多模態的,例如教練的口頭指導、視覺示范,或是詳細的文字說明。來自倫敦大學學院、上海交通大學、布朗大學、新加坡國立大學和布里斯托大學的聯合研究團隊提出了全新的自然語言強化學習(Natural Language Reinforcement Learning, NLRL)范式,成功將強化學習的核心概念類比為基于自然語言的形式,開辟了一條通向更智能、更自然的 AI 決策學習的新道路。論文題目: Natural Language Reinforcement Learning論文鏈接: https://arxiv.org/abs/2411.14251代碼鏈接: https://github.com/waterhorse1/Natural-language-RL從數值到語言:新范式的萌芽隨著大語言模型(LLM)在理解和生成自然語言方面的飛速發展,研究者們開始探索如何讓 AI 系統像人類一樣通過語言來理解任務、制定策略并解釋決策過程。論文第一作者的早期工作 ChessGPT(https://arxiv.org/abs/2306.09200)嘗試通過收集對局評論來訓練語言模型并取得了一定成功。然而,這種基于人類數據的學習方式很快遇到了瓶頸:互聯網數據質量參差不齊,高質量專家標注成本高昂,而對于全新任務更是無從獲取相關經驗數據。這種困境促使研究團隊開始探索一個更具突破性的方向:能否設計一個框架,讓 AI 系統完全通過與環境的交互來學習,而不依賴任何人類標注數據?傳統強化學習為這個問題提供了靈感,但其單一數值獎勵的機制難以滿足復雜場景的需求。團隊意識到需要一個新范式,既要繼承強化學習的數學嚴謹性,又要具備自然語言的表達豐富性。這個思路最終導向了 NLRL 的誕生。自然語言強化學習傳統強化學習雖然在數學上嚴謹優雅,但其單一數值反饋機制與人類學習方式存在巨大差距。研究團隊從象棋教練指導學生的場景獲得啟發:教練不會簡單說 “這步棋的價值是 0.7”,而是會詳細解釋 “這個走法控制了中心,限制了對手的機動性,同時為王翼進攻創造了條件”。這種觀察促使團隊思考:能否將豐富的語言反饋信號整合進學習框架?這個思路的關鍵突破來自對傳統強化學習本質的重新思考:既然傳統 RL 可以通過蒙特卡洛和時序差分等方法進行學習,這些方法是否可以擴展到語言空間?基于這一洞察,團隊提出了 NLRL 框架,將傳統 RL 中的數學概念類比為語言形式。以下是一個對應關系示意圖。具體而言,NLRL 引入 “語言任務指令”(T_L)替代抽象的獎勵函數,并設計了度量函數 F 來評估軌跡描述 D_L (τ_π) 與任務指令的完成度。語言化的決策框架在 NLRL 中,MDP 的每個組成部分都被重新定義為文本形式。狀態變為包含完整上下文的自然語言描述,動作空間轉化為帶有推理過程的語言決策,而環境反饋則擴展為包含原因分析的詳細評估。例如,在迷宮環境中的狀態描述會包含位置、周圍環境、歷史探索等完整信息。語言策略與推理NLRL 中的策略 π_L 被創新性地分解為兩個部分:π_L (a,c|s) = π_L (c|s)π_L (a|c,s),其中 c 代表思維過程。這種分解使得決策過程變得完全透明。以國際象棋為例,系統會先分析局勢(“白方控制中心點,黑方王翼薄弱”),提出計劃(“開展王翼進攻,同時固守中心”),最后給出具體建議(“Nf3-e5,威脅 f7 并加強中心控制”)。語言價值評估NLRL 將傳統的標量值函數 V (s) 和 Q (s,a) 擴展為語言價值函數 V^L_π 和 Q^L_π。這種擴展使得評估變得更加豐富和可解釋。評估結果不僅包含勝率,還涵蓋空間利用、子力配合等多個角度的分析,并提供具體的改進建議。從理論到實踐將強化學習的數學概念轉化為語言形式是一個優雅的構想,但如何在實踐中實現這種轉化卻是一個巨大的挑戰。研究團隊意識到,近年來大語言模型在自然語言處理和推理能力方面的突破,為 NLRL 的實現提供了關鍵工具。通過深入研究大語言模型的能力邊界,團隊發現 LLM 不僅能夠理解和生成自然語言,還具備 information synthesis(信息綜合)、reasoning(推理)和 correlation analysis(相關性分析)等能力,這些能力恰好對應了傳統強化學習中的期望計算、價值估計和策略改進等核心操作。基于這一洞察,研究團隊提出了三個關鍵技術創新,構建了完整的 NLRL 實現框架:語言蒙特卡洛估計在傳統強化學習中,蒙特卡洛方法通過采樣多條軌跡并取平均值來估計狀態價值。但在語言空間中,我們無法直接對文本描述進行算術平均。研究團隊利用大語言模型作為信息聚合器 (aggregator)。具體來說,當系統需要評估某個狀態時,它會:1. 從該狀態開始采樣 K 條完整軌跡2. 將每條軌跡轉化為詳細的文本描述3. 使用專門設計的提示讓 LLM 扮演 “專家評估員” 的角色4.LLM 分析所有軌跡描述,提取關鍵模式和見解5. 生成一個綜合性的評估報告例如,在國際象棋中,系統可能會分析說:“基于觀察到的 20 個可能發展,此位置對白方有利。在 80% 的變化中,白方能夠通過控制中心格和針對 f7 的戰術威脅獲得優勢。但需要注意的是,如果黑方成功完成王翼城堡,局勢可能趨于平衡。”語言時序差分學習傳統的時序差分學習基于貝爾曼方程,將長期價值分解為即時獎勵和未來狀態的折扣價值。NLRL 創新性地提出了語言貝爾曼方程,將這種時序關系擴展到語言空間。在 NLRL 中,語言時序差分學習包含三個關鍵組件:1. 文本描述生成器 d:將狀態轉換 (s,a,r,s’) 轉化為自然語言描述2. 信息聚合函數 G1:綜合多個時間步的信息3. 語言組合函數 G2:將即時反饋與未來評估結合這三個組件協同工作的方式如下:首先,d 將環境反饋轉化為詳細的文本描述,包括采取的動作、即時反饋和到達的新狀態G2(通常是一個經過特殊提示的 LLM)將即時描述與對未來狀態的語言評估結合,生成一個整體性的分析G1 聚合多個這樣的分析,得出最終的狀態評估在實踐中,這種方法表現出了獨特的優勢:可以捕捉到難以量化的微妙因素評估結果具有很強的可解釋性能夠處理長期依賴關系語言策略提升在傳統強化學習中,策略提升通常通過梯度上升來最大化期望回報。但在語言空間中,我們需要一個全新的策略提升機制。研究團隊提出了基于語言相關性分析的策略提升方法。這種提升機制的工作原理是:1. 對當前狀態收集多個候選動作2. 獲取每個動作的語言價值評估3. 使用 LLM 分析這些評估與任務目標的相關性4. 生成改進的決策鏈路,包括:詳細的推理過程對不同選項的權衡分析最終決策的依據例如,在迷宮導航任務中,系統可能會這樣分析:“向右移動是最優選擇,因為:1)根據之前的探索經驗,右側路徑更可能通向目標 2)即使這條路不是最短路徑,也為我們保留了回退的選項 3)相比向上移動可能遇到的死胡同,這個選擇風險更小。”實驗驗證研究團隊在三個具有代表性的環境中系統地驗證了 NLRL 的效果。這些實驗不僅展示了 NLRL 的性能優勢,更重要的是證明了該框架在不同類型任務中的普適性和可擴展性。迷宮導航 – 基于 prompt 的自然語言策略迭代在復雜的迷宮導航任務中,研究團隊測試了純基于 prompt 的自然語言策略迭代算法。研究團隊選擇了兩種具有挑戰性的迷宮環境進行測試:雙 T 型迷宮和中等復雜度迷宮。在這些環境中,智能體需要從隨機初始位置導航到目標位置,同時避免撞墻。通過語言 TD 估計,在雙 T 型迷宮中實現了 – 11.19±2.86 的平均獎勵,遠優于基線方法的 – 27.29±4.43。但 NLRL 真正的優勢不僅僅體現在數字上。系統能夠清晰地解釋每個決策的原因,例如:“選擇向南移動,因為:1)北邊是死胡同,我們之前已經探索過 2)南向路徑似乎更接近目標位置 3)即使這條路不是最優解,我們仍保留了向東撤退的選項。” 實驗還發現,增加變化數量和前瞻步數能進一步提升性能。 突破棋 (Breakthrough)- 自然語言價值函數在 5×5 突破棋(狀態空間達 10^8)這個幾乎沒有人類數據的任務中,NLRL 純依靠環境反饋訓練出了高質量的語言評估器。通過混合不同水平的 MCTS 策略數據構建訓練集,評估器達到了 0.85 的準確率,顯著超越 LLAMA-3.1-70b 的 0.61 以及 GPT-4o 的 0.58。更重要的是,這個評估器能提供專業級別的局勢分析。例如:“黑方略占優勢,原因有三:1)在 d4 和 e4 形成了穩固的雙兵鏈 2)白方右翼的兵形成了薄弱點 3)黑方的推進速度比白方快半步。建議白方通過 c3-c4 來爭奪中心控制權。”井字棋 – 自然語言 Actor-Critic在井字棋環境中,團隊實現了完整的語言 Actor-Critic 系統。通過動作選擇掩碼防止幻覺、經驗緩沖區解決遺忘問題、持續的迭代優化等創新,系統在隨機對手下實現 90% 以上勝率,面對確定性策略甚至能保持 100% 的勝率,同時保持決策過程的清晰可解釋性。?THE END轉載請聯系本公眾號獲得授權投稿或尋求報道:liyazhou@jiqizhixin.com

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        一区二区三区日韩精品视频| 成人免费视频一区| 一区二区激情小说| 国产在线精品不卡| 欧美午夜理伦三级在线观看| 国产欧美日韩激情| 精品一区免费av| 欧美精品视频www在线观看| 亚洲欧美自拍偷拍色图| 国产精品 日产精品 欧美精品| 91在线免费视频观看| 国产丝袜美腿一区二区三区| 国产九色精品成人porny | 欧美一级一区二区| 午夜久久久久久久久| 91美女在线视频| 成人欧美一区二区三区小说| eeuss鲁一区二区三区| 亚洲视频1区2区| 色老汉av一区二区三区| 亚洲欧美区自拍先锋| 91免费视频网| 亚洲制服丝袜av| 欧美性受xxxx黑人xyx| 亚洲成人av免费| 欧美日韩国产乱码电影| 日韩av在线免费观看不卡| 日韩片之四级片| 成人综合在线视频| 日韩毛片一二三区| 日本电影亚洲天堂一区| 亚洲综合在线免费观看| 欧美精品 国产精品| 美国一区二区三区在线播放| 久久久久久综合| 成人ar影院免费观看视频| 久久精品在线观看| 国产成人精品亚洲日本在线桃色 | 色丁香久综合在线久综合在线观看| 国产精品国产三级国产aⅴ原创| 成人午夜私人影院| 亚洲美女电影在线| 欧美片网站yy| 国产精品影视天天线| 最好看的中文字幕久久| 欧美猛男超大videosgay| 日韩国产欧美一区二区三区| 国产精品污网站| 欧美日韩在线一区二区| 黄色日韩三级电影| 一区二区三区欧美日韩| www国产精品av| 色综合天天天天做夜夜夜夜做| 亚洲成a人片在线观看中文| 日韩一区二区在线看片| 91一区一区三区| 黄色日韩网站视频| 日韩制服丝袜av| 国产日本欧美一区二区| 欧美日韩情趣电影| 成人伦理片在线| 麻豆成人久久精品二区三区小说| 中文字幕中文字幕在线一区| 欧美年轻男男videosbes| 99国产精品久| 国产成人免费在线观看| 青青草国产精品亚洲专区无| 国产精品久久一卡二卡| 亚洲精品在线免费观看视频| 欧美午夜精品免费| 成人18精品视频| 国产一区视频在线看| 日本亚洲三级在线| 久久美女艺术照精彩视频福利播放| 欧洲视频一区二区| 99久久久无码国产精品| 成人午夜视频在线观看| 国产精品18久久久久久久久| 国产精品第五页| 337p粉嫩大胆噜噜噜噜噜91av | 国产天堂亚洲国产碰碰| 日韩精品自拍偷拍| 777亚洲妇女| 欧美日韩第一区日日骚| 欧美性猛片xxxx免费看久爱| 色婷婷综合激情| 欧美日韩在线观看一区二区| 色婷婷精品久久二区二区蜜臂av| av毛片久久久久**hd| 99精品久久只有精品| 99re免费视频精品全部| 欧美综合视频在线观看| 欧美午夜一区二区| 欧美性大战xxxxx久久久| 成人午夜视频在线观看| 99精品桃花视频在线观看| 99这里只有精品| 欧洲国内综合视频| 欧美电影一区二区| 精品国产sm最大网站| 26uuu亚洲综合色欧美| 日本一区二区免费在线观看视频| 国产欧美视频一区二区三区| 中文字幕欧美国产| 亚洲欧美一区二区三区极速播放 | 欧美亚洲另类激情小说| 91久久国产最好的精华液| 欧美日韩国产综合视频在线观看| 欧美视频一区在线| 欧美一区二区三区白人| 精品国产一区二区三区av性色| 欧美精品一区二区三区蜜桃 | 奇米一区二区三区| 五月天久久比比资源色| 日本 国产 欧美色综合| 日本不卡视频在线观看| 国产二区国产一区在线观看| 99热99精品| 欧美日韩不卡一区| 亚洲国产精品99久久久久久久久 | 国产91清纯白嫩初高中在线观看| 高清shemale亚洲人妖| 91黄色免费网站| 精品国产伦一区二区三区免费| 亚洲天堂免费看| 麻豆免费看一区二区三区| 成人国产一区二区三区精品| 色999日韩国产欧美一区二区| 欧美电影免费观看高清完整版| 国产精品久久久久久亚洲伦| 奇米色777欧美一区二区| thepron国产精品| 精品国产伦一区二区三区观看体验| 国产精品久久久久国产精品日日 | 亚洲精品一线二线三线| 亚洲综合一区二区| 国产精品一二三| 欧美另类一区二区三区| 国产精品私人影院| 激情五月播播久久久精品| 91黄色激情网站| 欧美美女一区二区在线观看| 亚洲欧美日韩成人高清在线一区| 国产成人99久久亚洲综合精品| 日韩欧美中文字幕制服| 丝袜美腿高跟呻吟高潮一区| 国产一区二区三区精品欧美日韩一区二区三区 | 精品国产一区二区精华| 亚洲成人激情社区| 91麻豆产精品久久久久久| 久久久亚洲高清| 久久国产精品99精品国产| 欧美日韩精品电影| 亚洲国产成人av好男人在线观看| 国产精华液一区二区三区| 日韩精品中文字幕一区二区三区| 亚洲丶国产丶欧美一区二区三区| jiyouzz国产精品久久| 欧美国产精品久久| 蜜臀99久久精品久久久久久软件| 9人人澡人人爽人人精品| 7777精品久久久大香线蕉| 亚洲国产中文字幕在线视频综合 | 久久久夜色精品亚洲| 日本成人在线一区| 欧美日韩国产高清一区二区三区| 一区二区三区av电影| 国产麻豆视频一区| 欧美日本乱大交xxxxx| 天天操天天干天天综合网| 高清久久久久久| 自拍偷拍亚洲综合| 在线精品观看国产| 国产在线不卡一卡二卡三卡四卡| 欧美国产一区二区| 欧美色图天堂网| 波多野结衣的一区二区三区| 日韩二区在线观看| 亚洲欧美成人一区二区三区| 精品国产伦理网| 4438成人网| 欧美伊人久久大香线蕉综合69 | 日本少妇一区二区| 亚洲免费视频中文字幕| 久久久国产综合精品女国产盗摄| 欧美精品一二三四| 色欧美日韩亚洲| 福利一区二区在线| 久久99热99| 日本欧美一区二区三区| 亚洲精品视频观看| 国产精品短视频| 中文欧美字幕免费| 2020日本不卡一区二区视频| 91精品国产综合久久福利| 欧美性生交片4| 色老头久久综合| 91麻豆国产精品久久| 成人激情小说乱人伦| 国产suv精品一区二区6|