NeurIPS 2024 | 智能體不夠聰明怎么辦？讓它像學徒一樣持續學習

來源：人工智能前沿講習“問渠那得清如許，為有源頭活水來”，通過前沿領域知識的學習，從其他研究領域得到啟發，對研究問題的本質有更清晰的認識和理解，是自我提高的不竭源泉。為此，我們特別精選論文閱讀筆記，開辟“源頭活水”專欄，幫助你廣泛而深入的閱讀科研文獻，敬請關注！此項研究成果已被 NeurIPS 2024 錄用。該論文的第一作者是清華大學計算機系博士生關健（導師：黃民烈教授），目前任螞蟻研究院副研究員，其主要研究領域為文本生成、復雜推理和偏好對齊。隨著 ChatGPT 掀起的 AI 浪潮進入第三年，人工智能體（AI Agent）作為大語言模型（LLM）落地應用的關鍵載體，正受到學術界和產業界的持續關注。實際上，早在 5-6 年前，預訓練技術就已經在許多實際任務中取得了顯著成果。但 AI Agent 之所以在當下備受矚目，更多地源于其在自動解決復雜任務方面展現出的巨大潛力，而這種潛力的核心基石正是智能體的復雜推理能力。與當下廣受關注的 OpenAI-o1 及其追隨者略有不同，大多數實用的 AI Agent 往往需要在特定場景下發揮作用。這種情況類似于普通人類：雖然不是每個人都需要具備獲得 IMO 金牌的數學素養，但在具體場景下利用特定知識和工具完成復雜任務（例如使用搜索引擎、處理私有文檔等）的能力卻是不可或缺的。這一特點也意味著 AI Agent 的開發者們需要一套既通用又高效的 Agent 構建方。更具挑戰性的是，作為面向實際應用的產品，AI Agent 在部署后還需要能夠隨著應用場景的演進和用戶需求的變化而不斷更新優化。這些實際問題都表明，構建一個真正實用的 AI Agent 絕非簡單的提示工程（Prompt Engineering）或模型微調（Fine-tuning）所能解決，而是需要更系統化的方法。在 NeurIPS 2024 上，來自清華大學和螞蟻集團的研究者針對人工智能體構建方法的通用性和適應性提出了一個新方案。這個被命名為 AMOR（Adaptable MOdulaR knowledge agent）的系統，不僅能低成本地調用專業工具和知識庫，更重要的是，它能像人類一樣持續學習和成長。論文標題：AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback論文地址：https://arxiv.org/abs/2402.01469作者主頁：https://jianguanthu.github.io/AI Agent 的「三大短板」：為什么它們還不夠「聰明」？想讓 AI Agent 真正勝任助手角色，僅有海量知識是遠遠不夠的。研究團隊通過深入分析發現，當前 AI Agent 普遍存在三大短板：「黑盒思維」：與優秀人類助手能清晰展示解題思路不同，AI Agent 的推理過程往往是個黑箱，我們根本無從得知它是如何得出結論的。「固步自封」：AI Agent 就像被困在訓練時刻的「永恒現在」，無法像人類那樣與時俱進，持續獲取新能力、更新認知。「粗放糾錯」：當 AI Agent 犯錯時，我們只能籠統地說「答案不對」，而無法像指導學生那樣，精確指出「這一步推理有問題」。更令人困擾的是，目前業界主流方案都未能同時解決這三大難題。作者對比了當前最具代表性的 AI Agent 框架，它們要么推理過程不可控，要么知識固化，要么反饋機制過于粗糙。這一困境在開源模型中表現得尤為明顯。AMOR 和已有構建智能體的代表性方法的比較AMOR：基于有限狀態機的模塊化推理方案如何讓 AI Agent 既能像專家一樣嚴謹思考，又能像學徒一樣持續成長？AMOR 框架給出了一個優雅的答案：將復雜的 AI 推理過程拆解成可控的「專家模塊」，通過有限狀態機（FSM）編排它們的協作規則，就像精密的齒輪系統一樣，每個部件都完美嚙合。AMOR 的狀態轉移圖這種設計帶來三大關鍵優勢：1. 結構化推理框架FSM 使得定義步驟間的依賴關系（例如，執行順序、分支選擇）非常方便，因此能夠容易地對錯誤的路徑進行剪枝，從而縮小探索空間，也有潛力更高效地構建類 OpenAI-O1 的長推理鏈。2. 「雙階段」訓練策略通過將復雜任務解耦為模塊，AMOR 能夠訓練每個模塊，從而可以充分利用開源數據集。具體而言，AMOR 采用「預熱 + 適應」兩階段訓練模式：快速起步 – 預熱階段：就像新員工入職培訓，AMOR 通過在 5 萬個自動構建的樣本上訓練掌握基礎技能。這些樣本被巧妙地分解到各個模塊，使得即便是開源語言模型也能快速達到專業水準。持續進化 – 適應階段：像經驗豐富的職場人一樣，AMOR 在實際工作中不斷成長。每解決一個問題，它就能積累一分經驗，逐步適應特定領域的專業需求。3. 過程反饋機制傳統 AI 訓練就像只告訴學生「考試及格 / 不及格」，而不指出具體錯在哪里。這種粗糙的反饋機制常常導致 AI 像「黑盒」一樣難以診斷問題，訓練效果事倍功半。而 AMOR 引入「過程反饋」機制，在適應訓練階段中，其結構化的推理過程使用戶能夠輕松診斷智能體的錯誤，并提供過程反饋以提高智能體的推理能力。4. 框架通用性AMOR 框架的設計充分考慮了通用性和可擴展性。雖然論文主要以文本知識庫為例進行驗證，但其基于 FSM 的模塊化設計天然支持多種應用場景的遷移和擴展：知識類型擴展：通過定制 FSM 框架內的模塊和依賴關系，AMOR 可以靈活支持不同類型的知識庫，如結構化數據庫、多模態知識等。任務類型擴展：除了問答任務外，通過重新設計狀態轉移圖，AMOR 還可以支持其他知識密集型任務，如文檔摘要、知識推理等。工具集成擴展：得益于模塊化設計，AMOR 可以方便地集成各類專業工具。只需將新工具封裝為對應的工具模塊，并在 FSM 中定義其調用規則即可。這種可擴展的架構設計使得 AMOR 不僅能夠解決當前的知識推理任務，更為未來接入新的知識源、任務類型和工具能力預留了充足的擴展空間。正如論文所述，AMOR 提供了一個構建知識智能體的通用框架，其核心思想是基于 FSM 的推理邏輯和過程反饋機制，這使得它能夠適應各種不同的應用場景需求。AMOR 實現：模型結構和訓練過程AMOR 采用了一種巧妙的「專家混合」架構（Module-Aware Mixture-of-Experts，簡稱 MA-MoE）。這種設計靈感來自人類的專業分工：就像一個人可以是優秀的醫生，同時在其他領域保持基本能力。具體來說，MA-MoE 為每個功能模塊配備了獨特的 FFN 參數，并用原始模型的 FFN 參數進行初始化。這就像是在 AI 的「大腦」中劃分了專門的「思維區域」。在預熱階段，AMOR 用標準的 MLE Loss 在 5 萬個樣本上對 MA-MoE 進行微調。在適應階段，AMOR 的訓練過程分為三個關鍵步驟：探索、反饋和利用。探索（Exploration）：就像學徒需要親自動手實踐，AMOR 會直接處理用戶的實際問題。在這個過程中，AMOR 在知識庫中搜索相關信息，進行思考和推理，并推斷答案。反饋（Feedback Collection）：這個階段就像師傅在旁邊觀察學徒的工作，并給出具體指導，可以直接說「對」或「錯」，也可以具體指出正確答案，并且 AMOR 的每個推理步驟都能得到反饋。利用（Exploitation）：每處理一定數量的問題后，AMOR 會根據收集到的反饋進行「復盤」，使用 KTO Loss 將 MA-MoE 和人類偏好對齊。和預熱階段類似，AMOR 的每個模塊在優化時只調整自己的「專業參數」。AMOR 實驗：成本更低，效果更好在 HotpotQA（百科知識問答）、PubMedQA（醫學文獻問答）和 QASPER（論文長文本問答）三個基準測試中，AMOR 展現出優秀的性能：AMOR 的 FSM 框架讓 AI 的推理過程更加清晰可控，比傳統方法提升 30%~40%；通過在多個開源數據集上預熱，AMOR 甚至超越了用 GPT-4 生成訓練數據的智能體；使用過程反饋比結果反饋進行適應更高效：僅需 800 次互動就能達到穩定效果，并且證據收集能力和推理正確率顯著提升。AMOR 及基線方法在微調或不微調時的實驗結果實例展示下圖比較了 AMOR 和傳統的 ReAct 框架（基于 GPT-3.5）分別回答同一問題的推理過程：AMOR（上）和 ReAct（下）回答同一輸入問題的樣例如圖所示，沒有明確推理邏輯約束的 ReAct 未能成功分解問題，并在「Thought/Action 5」中過早地終止檢索。此外，ReAct 在「Thought 2/4/5」中也混合了正確和錯誤的步驟，這使得用戶難以針對性地批評和改進智能體。相比之下，AMOR 則如同經驗豐富的專家，每一步推理都清晰可控，不僅能準確找到答案，還能接受精確的過程指導，持續提升自己的能力。成本分析在 AI 領域，性能提升往往意味著更高的成本。然而，如下圖所示，AMOR 打破了這個「魔咒」。不同智能體的平均步驟數 /token 數對比為什么 AMOR 如此高效？想象一個團隊會議：傳統方法（如 ReAct）像是每個人發言都要重復之前所有人說過的話；AMOR 則像是精心設計的會議流程：每個環節只傳遞必要信息。按照目前 API 調用成本計算，使用 GPT-4o 處理 1 萬個問題，AMOR 比 ReAct 節省數百美元；當使用開源模型時，成本可以進一步降低 90% 以上。這意味著 AMOR 不僅在性能上領先，在商業落地時也具有顯著的成本優勢。尤其適合大規模文檔處理、客服智能問答、專業領域咨詢等高頻場景的應用。結語本文介紹了 AMOR—— 一個為知識密集型任務設計的模塊化智能體框架。它通過 FSM 推理系統和過程反饋機制，讓 AI 展現出前所未有的推理能力和學習潛力。AMOR 的成功為 AI 助手的發展開辟了新路徑。作者表示，接下來，他們將拓展到更多知識類型（如結構化知識庫）、探索更廣泛的應用場景、研究 AI 自主設計推理邏輯的可能性。這些工作預示著我們正在接近真正的「AI 專家」：既有清晰的推理能力，又能在實踐中持續成長。閱讀報告全文，請訪問歐米伽研究所的“未來知識庫”https://wx.zsxq.com/group/454854145828未來知識庫是“歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。截止到11月25日 ”未來知識庫”精選的100部前沿科技趨勢報告Air Street Capital《2024 年人工智能現狀報告》未來今日研究所：2024 技術趨勢報告 – 廣義計算篇科睿唯安中國科學院 2024 研究前沿熱度指數報告文本到圖像合成：十年回顧《以人為中心的大型語言模型（LLM）研究綜述》經合組織 2024 年數字經濟展望報告加強連通性創新與信任第二版波士頓咨詢 2024 全球經濟體 AI 成熟度矩陣報告理解世界還是預測未來？世界模型的綜合綜述Google Cloud CSA2024 AI 與安全狀況調研報告英國制造商組織 MakeUK2024 英國工業戰略愿景報告從概念到實施花旗銀行 CitiGPS2024 自然環境可持續發展新前沿研究報告國際原子能機構 2024 聚變關鍵要素報告 – 聚變能發展的共同愿景國際可再生能源署 IRENA2024 年全球氣候行動報告Cell: 物理學和化學、人工智能知識領域的融合智次方 2025 中國 5G 產業全景圖譜報告未來今日研究所：2024 技術趨勢報告 – 移動性，機器人與無人機篇Deepmind：AI 加速科學創新發現的黃金時代報告PitchBookNVCA2024 年第三季度全球風險投資監測報告德科 2024 年未來全球勞動力報告高工咨詢 2024 年協作機器人產業發展藍皮書國際能源署 IEA2024 年全球能源效率報告基因慧基因行業藍皮書 2024 – 2025普華永道 PwC2024 全球經濟犯罪調查英國報告 – 智對風險直面挑戰中國互聯網協會 2024 面向未來網絡的數字孿生城市場景應用白皮書中移智庫 2024 先進感知新技術及新應用白皮書智次方研究院 2025 中國 AIoT 產業全景圖譜報告未來今日研究所：2024 技術趨勢報告 – 人工智能篇國際電聯：邁向衡量數字經濟的通用框架的路線圖聯合國糧食與農業組織：2024 年世界糧食安全和營養狀況大語言模型綜述李飛飛等，AI 智能體：探索多模式交互的前景綜述哈爾濱工業大學 – ChatGPT 調研報告2024《美國核部署戰略報告》最新文件清華大學：AIGC 發展研究 3.0 發布版 b 版OpenAI：2024 年 OpenAI o1 大模型技術報告Verizon2024 年世界支付安全報告皇家學會哲學學報從復雜系統角度評估人工智能風險復旦大學大模型 AI 代理的興起和潛力：綜述經合組織 OECD2024 年氣候行動監測報告Wevolver2024 年邊緣人工智能現狀報告 – 探索各行業邊緣 AI 應用動態2024 全球人形機器人產品數據庫報告 – 人形機器人洞察研究 BTIResearch《全球金融穩定報告》把舵定航不確定性、人工智能與金融穩定瑞士洛桑聯邦理工學院《人工智能中的 – 創造力：進展與挑戰》《你所需要知道的理 – 論：人工智能、人類認知與決策》牛津大學最新 53 頁報告世界經濟論壇新興技術時代的網絡彈性導航：應對復雜挑戰的協作解決方案 2024ADL 理特咨詢 2024 汽車出行未來展望報告2024 中國硬科技創新發展白皮書 – 開辟未來產業新賽道科學時代的大語言模型中的人工智能Gartner2025 年重要戰略技術趨勢報告CBInsights2024 年第三季度全球人工智能投融資狀況報告TrendHunter2025 年全球趨勢報告 – 全行業頂級創新和變革趨勢前瞻天津大學 2024 大模型輕量化技術研究報告歐洲海洋局 2024 導航未來報告將海洋置于更廣泛的地球系統中第六版美國安全與新興技術中心 2024 AI 生成代碼的網絡安全風險研究報告國際原子能機構 2024 年世界聚變展望報告復旦大學 2024 大語言模型的能力邊界與發展思考報告安盛 AXA2024 年氣候與生物多樣性報告氣候過渡計劃路線圖YouGov2024 美國公眾對人工智能 AI 的態度調研報告麥肯錫中國報告：《中國與世界》完整版麥肯錫全球研究所 2024 下一代競技場報告 – 重塑全球經濟的 18 個新興行業領域Project Sid，一個旨在模擬多智能體交互以研究 AI 文明的項目德國研究與創新專家委員會德國研究創新與科技成果報告2024 年歐洲關鍵產業的科技重塑研究報告智能體專題報告之二 – 智能體時代來臨具身智能有望成為最佳載體ActivateConsulting 2025 年頂級技術和媒體發展趨勢報告蘭德全球災難風險評估斯坦福李飛飛《AI agent 綜述》Agent AI 開啟多模態交互新紀元中國聯通研究院 2024 中國生成式人工智能應用與實踐展望白皮書中文版普華永道 2024 第五次工業研究報告邁向彈性可持續和以人為本的未來大成 Dentsons2024 年全球智慧城市與互聯社區智庫年度報告TechUK2024 量子技術挑戰與機遇并存構筑量子韌性的策略與實踐研究報告Emakina 將塑造 2024 年的技術趨勢報告圖靈獎得主 Yann LeCun《機器如何才能達到人類智能水平？》——Yann LeCun，附 Slides 及視頻華為：2024 鴻蒙生態應用開發白皮書 V3.0（最新版）CASA：2023 第三代半導體產業發展報告大型視覺語言模型中幻覺現象的綜述IEA PVPS：2024 光伏應用趨勢報告（英文版）ABI Research：82 個將會或不會在 2024 年發生的技術趨勢白皮書《美國反無人機系統未來趨勢報告（2024 – 2029 年）》《軍事自主系統：未來之路》美空間智能如何？牛津大學博士論文《深度具身智能體的空間推理與規劃》2024 低空經濟場景白皮書 v1.0戰略與國際研究中心（CSIS）人類地月空間探索的總體狀況研究報告（2024）Artificial Intelligence Review：人工智能與物理學相遇的綜述麥肯錫：全球難題，應對能源轉型的現實問題歐米伽理論，智能科學視野下的萬物理論新探索（研究論文）Gartner 2025 年主要戰略技術趨勢研究報告2024 人工智能國外大模型使用手冊 + 中文大模型使用手冊詳解光刻巨人 ASML 成功之奧妙 – 241015CB Insights：未來變革者：2025 年九大科技趨勢研究報告國際電信聯盟 2023 – 2024 年聯合國人工智能 AI 活動報告《人工智能能力的人類系統集成測試和評估》最新 51 頁，美國防部首席數字和人工智能辦公室（CDAO）2024 瑞典皇家科學院諾貝爾化學獎官方成果介紹報告MHP 2024 全球工業 4.0 晴雨表白皮書世界經濟論壇白皮書《AI 價值洞察：引導人工智能實現人類共同目標》瑞典皇家科學院諾貝爾物理學獎科學背景報告資料AI 智能體的崛起：整合人工智能、區塊鏈技術與量子計算 (研究報告，書）OpenAI o1 評估：AGI 的機遇和挑戰（280 頁）世界知識產權組織：2024 年全球創新指數美國白宮：國家近地天體防御策略與行動計劃上下滑動查看更多

閱讀原文