NeurIPS 2024 | 智能體不夠聰明怎么辦？清華&螞蟻團隊：讓它像學徒一樣持續學習

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com此項研究成果已被 NeurIPS 2024 錄用。該論文的第一作者是清華大學計算機系博士生關健（導師：黃民烈教授），目前任螞蟻研究院副研究員，其主要研究領域為文本生成、復雜推理和偏好對齊。隨著 ChatGPT 掀起的 AI 浪潮進入第三年，人工智能體（AI Agent）作為大語言模型（LLM）落地應用的關鍵載體，正受到學術界和產業界的持續關注。實際上，早在 5-6 年前，預訓練技術就已經在許多實際任務中取得了顯著成果。但 AI Agent 之所以在當下備受矚目，更多地源于其在自動解決復雜任務方面展現出的巨大潛力，而這種潛力的核心基石正是智能體的復雜推理能力。與當下廣受關注的 OpenAI-o1 及其追隨者略有不同，大多數實用的 AI Agent 往往需要在特定場景下發揮作用。這種情況類似于普通人類：雖然不是每個人都需要具備獲得 IMO 金牌的數學素養，但在具體場景下利用特定知識和工具完成復雜任務（例如使用搜索引擎、處理私有文檔等）的能力卻是不可或缺的。這一特點也意味著 AI Agent 的開發者們需要一套既通用又高效的 Agent 構建方。更具挑戰性的是，作為面向實際應用的產品，AI Agent 在部署后還需要能夠隨著應用場景的演進和用戶需求的變化而不斷更新優化。這些實際問題都表明，構建一個真正實用的 AI Agent 絕非簡單的提示工程（Prompt Engineering）或模型微調（Fine-tuning）所能解決，而是需要更系統化的方法。在 NeurIPS 2024 上，來自清華大學和螞蟻集團的研究者針對人工智能體構建方法的通用性和適應性提出了一個新方案。這個被命名為 AMOR（Adaptable MOdulaR knowledge agent）的系統，不僅能低成本地調用專業工具和知識庫，更重要的是，它能像人類一樣持續學習和成長。論文標題：AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback論文地址：https://arxiv.org/abs/2402.01469作者主頁：https://jianguanthu.github.io/AI Agent 的「三大短板」：為什么它們還不夠「聰明」？想讓 AI Agent 真正勝任助手角色，僅有海量知識是遠遠不夠的。研究團隊通過深入分析發現，當前 AI Agent 普遍存在三大短板：「黑盒思維」：與優秀人類助手能清晰展示解題思路不同，AI Agent 的推理過程往往是個黑箱，我們根本無從得知它是如何得出結論的。「固步自封」：AI Agent 就像被困在訓練時刻的「永恒現在」，無法像人類那樣與時俱進，持續獲取新能力、更新認知。「粗放糾錯」：當 AI Agent 犯錯時，我們只能籠統地說「答案不對」，而無法像指導學生那樣，精確指出「這一步推理有問題」。更令人困擾的是，目前業界主流方案都未能同時解決這三大難題。作者對比了當前最具代表性的 AI Agent 框架，它們要么推理過程不可控，要么知識固化，要么反饋機制過于粗糙。這一困境在開源模型中表現得尤為明顯。AMOR 和已有構建智能體的代表性方法的比較AMOR：基于有限狀態機的模塊化推理方案如何讓 AI Agent 既能像專家一樣嚴謹思考，又能像學徒一樣持續成長？AMOR 框架給出了一個優雅的答案：將復雜的 AI 推理過程拆解成可控的「專家模塊」，通過有限狀態機（FSM）編排它們的協作規則，就像精密的齒輪系統一樣，每個部件都完美嚙合。AMOR 的狀態轉移圖這種設計帶來三大關鍵優勢：1. 結構化推理框架FSM 使得定義步驟間的依賴關系（例如，執行順序、分支選擇）非常方便，因此能夠容易地對錯誤的路徑進行剪枝，從而縮小探索空間，也有潛力更高效地構建類 OpenAI-O1 的長推理鏈。2. 「雙階段」訓練策略通過將復雜任務解耦為模塊，AMOR 能夠訓練每個模塊，從而可以充分利用開源數據集。具體而言，AMOR 采用「預熱 + 適應」兩階段訓練模式：快速起步 – 預熱階段：就像新員工入職培訓，AMOR 通過在 5 萬個自動構建的樣本上訓練掌握基礎技能。這些樣本被巧妙地分解到各個模塊，使得即便是開源語言模型也能快速達到專業水準。持續進化 – 適應階段：像經驗豐富的職場人一樣，AMOR 在實際工作中不斷成長。每解決一個問題，它就能積累一分經驗，逐步適應特定領域的專業需求。3. 過程反饋機制傳統 AI 訓練就像只告訴學生「考試及格 / 不及格」，而不指出具體錯在哪里。這種粗糙的反饋機制常常導致 AI 像「黑盒」一樣難以診斷問題，訓練效果事倍功半。而 AMOR 引入「過程反饋」機制，在適應訓練階段中，其結構化的推理過程使用戶能夠輕松診斷智能體的錯誤，并提供過程反饋以提高智能體的推理能力。4. 框架通用性AMOR 框架的設計充分考慮了通用性和可擴展性。雖然論文主要以文本知識庫為例進行驗證，但其基于 FSM 的模塊化設計天然支持多種應用場景的遷移和擴展：知識類型擴展：通過定制 FSM 框架內的模塊和依賴關系，AMOR 可以靈活支持不同類型的知識庫，如結構化數據庫、多模態知識等。任務類型擴展：除了問答任務外，通過重新設計狀態轉移圖，AMOR 還可以支持其他知識密集型任務，如文檔摘要、知識推理等。工具集成擴展：得益于模塊化設計，AMOR 可以方便地集成各類專業工具。只需將新工具封裝為對應的工具模塊，并在 FSM 中定義其調用規則即可。這種可擴展的架構設計使得 AMOR 不僅能夠解決當前的知識推理任務，更為未來接入新的知識源、任務類型和工具能力預留了充足的擴展空間。正如論文所述，AMOR 提供了一個構建知識智能體的通用框架，其核心思想是基于 FSM 的推理邏輯和過程反饋機制，這使得它能夠適應各種不同的應用場景需求。AMOR 實現：模型結構和訓練過程AMOR 采用了一種巧妙的「專家混合」架構（Module-Aware Mixture-of-Experts，簡稱 MA-MoE）。這種設計靈感來自人類的專業分工：就像一個人可以是優秀的醫生，同時在其他領域保持基本能力。具體來說，MA-MoE 為每個功能模塊配備了獨特的 FFN 參數，并用原始模型的 FFN 參數進行初始化。這就像是在 AI 的「大腦」中劃分了專門的「思維區域」。在預熱階段，AMOR 用標準的 MLE Loss 在 5 萬個樣本上對 MA-MoE 進行微調。在適應階段，AMOR 的訓練過程分為三個關鍵步驟：探索、反饋和利用。探索（Exploration）：就像學徒需要親自動手實踐，AMOR 會直接處理用戶的實際問題。在這個過程中，AMOR 在知識庫中搜索相關信息，進行思考和推理，并推斷答案。反饋（Feedback Collection）：這個階段就像師傅在旁邊觀察學徒的工作，并給出具體指導，可以直接說「對」或「錯」，也可以具體指出正確答案，并且 AMOR 的每個推理步驟都能得到反饋。利用（Exploitation）：每處理一定數量的問題后，AMOR 會根據收集到的反饋進行「復盤」，使用 KTO Loss 將 MA-MoE 和人類偏好對齊。和預熱階段類似，AMOR 的每個模塊在優化時只調整自己的「專業參數」。AMOR 實驗：成本更低，效果更好在 HotpotQA（百科知識問答）、PubMedQA（醫學文獻問答）和 QASPER（論文長文本問答）三個基準測試中，AMOR 展現出優秀的性能：AMOR 的 FSM 框架讓 AI 的推理過程更加清晰可控，比傳統方法提升 30%~40%；通過在多個開源數據集上預熱，AMOR 甚至超越了用 GPT-4 生成訓練數據的智能體；使用過程反饋比結果反饋進行適應更高效：僅需 800 次互動就能達到穩定效果，并且證據收集能力和推理正確率顯著提升。AMOR 及基線方法在微調或不微調時的實驗結果實例展示下圖比較了 AMOR 和傳統的 ReAct 框架（基于 GPT-3.5）分別回答同一問題的推理過程：AMOR（上）和 ReAct（下）回答同一輸入問題的樣例如圖所示，沒有明確推理邏輯約束的 ReAct 未能成功分解問題，并在「Thought/Action 5」中過早地終止檢索。此外，ReAct 在「Thought 2/4/5」中也混合了正確和錯誤的步驟，這使得用戶難以針對性地批評和改進智能體。相比之下，AMOR 則如同經驗豐富的專家，每一步推理都清晰可控，不僅能準確找到答案，還能接受精確的過程指導，持續提升自己的能力。成本分析在 AI 領域，性能提升往往意味著更高的成本。然而，如下圖所示，AMOR 打破了這個「魔咒」。不同智能體的平均步驟數 /token 數對比為什么 AMOR 如此高效？想象一個團隊會議：傳統方法（如 ReAct）像是每個人發言都要重復之前所有人說過的話；AMOR 則像是精心設計的會議流程：每個環節只傳遞必要信息。按照目前 API 調用成本計算，使用 GPT-4o 處理 1 萬個問題，AMOR 比 ReAct 節省數百美元；當使用開源模型時，成本可以進一步降低 90% 以上。這意味著 AMOR 不僅在性能上領先，在商業落地時也具有顯著的成本優勢。尤其適合大規模文檔處理、客服智能問答、專業領域咨詢等高頻場景的應用。結語本文介紹了 AMOR—— 一個為知識密集型任務設計的模塊化智能體框架。它通過 FSM 推理系統和過程反饋機制，讓 AI 展現出前所未有的推理能力和學習潛力。AMOR 的成功為 AI 助手的發展開辟了新路徑。作者表示，接下來，他們將拓展到更多知識類型（如結構化知識庫）、探索更廣泛的應用場景、研究 AI 自主設計推理邏輯的可能性。這些工作預示著我們正在接近真正的「AI 專家」：既有清晰的推理能力，又能在實踐中持續成長。?THE END轉載請聯系本公眾號獲得授權投稿或尋求報道：liyazhou@jiqizhixin.com

閱讀原文