作者 | AICon 全球人工智能開發與應用大會
策劃 | 羅燕珊 微軟、谷歌、百度等科技大廠都在全面發力 AI Agent,全球許多大企業也都在使用 AI Agent。那么,AI Agent 到底能為企業帶來什么新機遇?它在實際應用中會遇到哪些挑戰?近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了數勢科技 AI 負責人李飛、小米大模型負責人欒劍和京東技術專家王譯堃,在 AICon 全球人工智能開發與應用大會2024 北京站 即將召開之際,共同探討 AI Agent 在企業的應用與落地。部分精彩觀點如下:利用代理技術為個人打造私人助理,逐步替代傳統助理。先嘗試工程化優化,再根據需要引入大模型。微調、KG 和 Prompt 各有優勢,靈活結合應用是落地的關鍵。AI 的節奏應該與人類的交互節奏相匹配。
在 12 月 13-14 日將于北京舉辦的 AICon 全球人工智能開發與應用大會上,我們特別設置了【AI Agent 技術突破與應用】專題。隨著 AaaS 模式的崛起,AI Agent 有望顛覆傳統的 MaaS,為 AI 產業帶來新變革。在該專題中,多位業界資深專家將分享將分享 AI Agent 技術的最新進展與應用。同時,專題還將討論多 Agent 協同與自我學習的潛力,以及 AI Agent 在各行業中的廣泛應用,推動智能化轉型。查看大會日程解鎖更多精彩內容:https://aicon.infoq.cn/202412/beijing/schedule
以下內容基于直播速記整理,經 InfoQ 刪減。完整直播回放可查看:https://www.infoq.cn/video/N4p7ZM2XzbsEBALB1NzY?utm\_source=home\_video&utm\_medium=article
AI Agent 的最新動態與應用趨勢
李飛:大家在 AI Agent 領域關注了哪些動態?有沒有一些新的觀察和體會? 欒劍:Agent(代理)技術的應用越來越廣泛,之前主要是語言模態的代理系統,現在多模態系統增多,接入的工具也更加豐富,不僅有搜索引擎,還有內部知識庫等。行業內也出現了許多與音視頻相關的框架和平臺,雖然標準尚未統一,但呈現百花齊放的態勢。此外,隨著 O1 發布,強化學習成為了熱門話題,代理如何通過強化學習自我進化,成為了重要的研究方向。
李飛:在小米內部,是否有類似的無代碼化代理平臺?或者在日常應用和嘗試中,您是否通過這樣的代理平臺搭建過一些應用,并且從中獲得了哪些便利? 欒劍: 我們內部有一個基于自研大模型的平臺,應用廣泛,包括數據分析、招聘流程優化和文檔處理等。平臺非常靈活,可以將傳統工作流與大模型能力結合,創建新的代理系統。王譯堃:AI 代理領域的交叉性不斷增加,例如,Web 3 和區塊鏈的結合不再局限于智能客服和 AI Ops 等傳統應用,甚至包括法律文書等工作。另外,AI 代理與具身智能的結合也是一個值得關注的方向。
李飛:京東目前有嘗試將機器人與代理結合嗎? 王譯堃: 目前京東有幾個戰略項目,尤其是物流方面,正在結合機械臂和具身工具進行應用。與代理結合的主要方向是具身代理和具身交互,具體來說,我們將一些復雜任務拆解,利用代理的能力進行高級規劃,然后通過具身機器人和多模態感知來實施這些策略。另外,還有具身問答(EQA)系統,根據環境或特定問題,進行類似問答的交互。李飛: 我比較關注國內外的代理平臺。例如,像 MarketOn 這樣的公司通過無代碼化平臺,利用代理技術為個人打造私人助理,幫助完成訂票、點外賣等任務,逐步替代傳統助理。此外,我也在使用無代碼平臺,快速構建個人應用。比如,關注股票和研報時,通過代理平臺連接外部數據,自動獲取研報和上市公司數據,幫助我分析企業狀況和股市波動,代理在其中起到連接數據和應用的作用。
李飛:微軟、谷歌、Meta、百度等科技巨頭紛紛發力 AI Agent,甚至 SaaS 行業也在追趕。大家怎么看 AI Agent 目前的發展趨勢?有哪些方向或潛力是特別看好的? 王譯堃: 未來的發展趨勢總體來說是技術在增強多模態能力,特別是在一些細分領域和垂直行業,代理技術將發揮更大作用,尤其在人機協作方面。我認為現在比較成熟的方向,如智能客服,未來會有很大發展,特別是賦能企業工具。另一個方向是虛擬助手,無論是在自動駕駛的智能座艙還是作為個人助理,都是很有潛力的。
李飛:您認為真人客服和 agent 客服是一種什么樣的關系呢? 王譯堃: 是從協作到逐步取代的過程。初期,機器與人工并行,機器在并發量和標準化方面有優勢。隨著發展,大模型解決大部分問題,人工僅用于兜底。最終,在簡單場景中,機器會逐步替代人工。欒劍: 現在單智能體應用越來越多,尤其是無代碼平臺讓每個人都能輕松搭建工作流。但從單智能體到多智能體,能力的提升是指數級的,帶來了無限可能。未來不僅是協作型智能體,還有可能出現博弈和對抗型智能體,幫助我們研究更復雜的問題。同時,數據的枯竭讓我們需要新的知識創造方式。通過多個頂級大模型扮演不同專家角色進行交互,可能會創造出新的、有價值的數據。對于像小米這樣的硬件公司,把每個設備視為智能體,通過協同感知和執行,可以帶來全新的用戶體驗。
李飛:大家以前常聽到“物聯網”這個詞,您覺得代理與物聯網之間有什么關系?未來,小米的所有硬件設備是否可能通過智能體來驅動和使用呢? 欒劍: 每個設備可以是一個的智能體,未來它們可能搭載輕量級的端側模型,具備感知和執行能力。對于需求較低的設備,端側可以完成任務;而更復雜的任務則交由云端或邊緣計算處理。設備通過聯網形成多智能體系統,上級智能體負責宏觀協調,底層智能體專注于局部任務。這種方式類似于公司層級架構。
未來的多智能體是中心化還是去中心化
李飛:未來的多智能體系統是中心化的,意味著一個大腦控制多個智能體?還是像分布式去中心化的概念? 欒劍: 兩種情況都有可能。如果是模擬社區或公司這樣的結構,去中心化或中心化都會適用。如果是去中心化的社區,大家平等交流;如果是有層級的組織,如公司,則需要中心化。目前一種有趣的實現是,智能體共享一個信息池,信息按權限共享,這樣比點對點的溝通效率更高。
李飛:王老師您覺得我們最終會實現去中心化嗎?還是說這是一個逐步推進的過程? 王譯堃: 這兩種架構各有優劣,關鍵在于場景。中心化架構實現簡單、成本低,適合簡單系統;去中心化則更靈活,但容易產生沖突,通信問題也較復雜。一種折中方式是將中心化和去中心化結合,主要以中心化為主,其他智能體去中心化,確保全局策略的優化。
李飛:我們看到一些公司已經在嘗試多智能體協作,例如產品經理、項目管理、前端開發等各自作為的智能體,共同完成需求,從設計、PRD、原型到代碼實現和上線。我也在思考,這種協作模式中的中心化到底來自哪里?需求是如何驅動的? 欒劍: 這種多智能體工作流已經比較成熟,類似傳統的團隊合作流程,每個角色的任務和信息流是固定的。優點是高效,但缺點是缺乏靈活性,面對新任務時可能需要重新設計工作流,效果會下降。我更看好的是通過上級智能體來自動規劃工作流。這個工作流不是預設的,而是根據任務動態調整,并在執行中逐步優化,提升靈活性和效果。李飛: 最開始,我們也希望大模型能作為“大腦”來編排工作流,因為它的靈活性很高。我只需告訴它有哪些節點,工作流的順序和構建則由大模型的規劃能力決定。但隨著推進,我們發現大模型在實際落地時也有瓶頸,過于靈活的工作流有時會出現不可解釋性問題。現在我們發現,實際應用中,部分工作流通過意圖路由完成,剩余的則通過大模型進行編排。兩位老師在做這方面有什么經驗可以分享嗎?欒劍: 目前來看,人工設計的工作流應用最為穩定可靠。對于一個固定類型的任務,人工設計的工作流可以非常完善,避免不穩定的問題。讓大模型自我規劃工作流,雖然具有潛力,但大模型的推理和規劃能力仍然有限。從實際應用角度出發,我們目前還是依賴經過驗證的人工設計工作流,但在一些特定場景下(如娛樂場景),全自動規劃的工作流可能也能發揮作用。這是一種探索性質的嘗試。
李飛:王老師能分享一下如何在銷售助手領域落地 agent 嗎? 王譯堃: 銷售助手是一個多智能體協作的場景,它通常集中在精細的領域內。主要通過企業 IM 軟件來運營銷售,利用文本信息進行智能編排,完成任務。通常通過意圖路由來控制流程的走向。為了避免問題,也可以結合中心化和去中心化的架構,同時引入監督員角色,對關鍵環節進行質檢和流程評估。
如何克服 AI Agent 技術障礙
李飛:目前大多數 AI Agent 仍依賴于大模型,但大模型訓練成本高、缺乏針對特定行業的深入理解等問題依然存在。能否結合特定行業案例聊聊,您認為要如何克服這些技術障礙?以及,是否有一些新的技術進展或方法能有效解決這些問題? 王譯堃: 前期我們通過小樣本學習和數據增強,低成本地探索通路,利用大模型的泛化能力解決簡單任務。隨著項目推進,數據收集和標注變得關鍵,能顯著提升模型效果。此外,針對銷售助手中的 QA 場景,我們計劃通過實體關聯(如 Graph RAG)來進一步優化模型表現。
李飛:剛才提到,我們可能通過 Prompt 或微調來優化大模型的效果。不同人對大模型的應用有不同觀點:有些認為應該對大模型進行領域數據的微調,而另一些則主張通過工程化手段糾正大模型偏差。在實際落地時,我們應該如何權衡?是通過工程化手段解決問題,還是通過適當的數據標注和微調來應對? 王譯堃: 從收益最大化的角度出發,首先不要盲目使用大模型。工程化手段如果能解決大部分問題,就應該優先考慮。只有在一些特殊場景下,如客戶外呼和產品簽約等,傳統方法難以應對時,才考慮使用大模型。整體上,先嘗試工程化優化,再根據需要引入大模型。李飛: 我們的策略也是先通過工程化手段,包括軟件優化和 Prompt 構建,盡量發揮大模型的能力。如果這些方法無法解決領域問題,再通過數據標注微調,幫助模型適應特定需求,特別是在語義對不齊的情況下。欒劍老師,您在小米的經驗如何?如何平衡工程化和微調,以確保 ROI?欒劍: 我同意兩位的看法,快速添加規則能解決短期問題,但過多規則會增加維護難度。長期來看,規則和微調應并行,特別是對于專業術語,可能需要擴展語料庫,幫助大模型更好地理解行業知識。此外,外部知識庫(如 KG,知識圖譜)能靈活補充大模型不足的領域知識,避免微調后的模型忘記已學內容。微調、KG 和 Prompt 各有優勢,靈活結合應用是大模型落地的關鍵。
李飛:我們可以通過加規則來幫助模型落地并確保成功。對于規則和大模型的關系,雖然大模型的能力會隨著訓練和迭代不斷提升,但規則似乎像是束縛模型的“繩子”,限制了其潛力。在實際應用中,如何在使用規則確保落地的同時,又不限制大模型的能力迭代? 欒劍: 我們需要保持一個更新的測試集,用來評估每次迭代后的效果。每次添加或刪除規則時,都需要通過測試集進行評測,確保規則的有效性和模型的能力提升。規則通常是為了應對大模型能力不足時的臨時手段,隨著模型能力的提升,規則應該逐步減少,讓模型在學習中掌握這些規則,而不是單純依賴外部規則。因此,我認為規則應當隨著時間逐步減少,讓大模型能夠自動學習并應對更復雜的場景。李飛: 測試和評測集非常重要,需要頻繁更新,以便跟進新的應用場景和變化。欒劍: 是的,為了避免工程師走捷徑,測試集必須持續更新,根據線上新情況不斷調整,這樣才能確保大模型在真實應用中的適應性。
李飛:王老師您在實際落地時,測試部分是如何協作的,尤其是涉及大模型和工程能力的測試? 王譯堃: 我們搭建了一個平臺,依賴評測集而非 A/B 測試來進行模型迭代和大模型選型。平臺會收集線上大模型的中間指標和關鍵數據,人工進行復檢。比如,我們的外呼系統會抽取部分數據進行標注,銷售助手會檢查工作流。通過對比自動化和人工標注的準確率,發現差異時會進行復檢。每天我們都會動態更新評測數據,并且新模型上線前都需要通過評測集測試。
李飛:評測數據的維護通常由哪些角色來完成? 王譯堃: 我們有專門的運營同學來維護評測集,但研發也會參與在線標注,幫助發現問題。運營人員的技術背景可能較弱,雖然能發現問題,但不一定能定位到底層原因,研發則能更深入地了解問題。因此,技術人員也會參與線上標注工作。
AI Agent 的市場接受度與挑戰
李飛:目前 AI Agent 的市場接受度如何?在實際應用中,企業在采納 AI Agent 時面臨哪些具體的技術難題或業務挑戰? 欒劍: 目前 AI Agent 的接受度挺高的,特別是在一些成熟的工作流中,通過大語言模型替代人工,能夠顯著提高自動化程度和效率。然而,仍然存在一些質疑。與人類完成的工作相比,AI Agent 在靈活性和創造性上仍有所欠缺,處理復雜情況時的能力有限。另外,人類工作可以追責,但大模型的結果很難確保每次都正確。即便是小概率的錯誤,可能也會導致用戶的不信任,尤其是在財務等重要領域,AI 目前仍然只是輔助工具,無法完全替代人工。社會上也有擔心,AI 是否會取代更多人的工作崗位,帶來就業壓力。對此,我持樂觀態度。就像汽車取代馬車時,雖然一些崗位消失了,但新的崗位和需求也隨之增加,最終帶來了更多的工作機會和創新可能。
李飛:在實際應用中,什么時候應該快,什么時候應該慢? 欒劍: 如果是全自動的工作流,AI Agent 的效率肯定高于人工,因為它不需要人為干預,可以 24 小時不間斷運行,處理速度可以通過增加服務器并行化來提高。如果工作流需要人參與,瓶頸通常在于人,而不是 AI Agent 本身。在這種場景下,AI 的慢或效率低主要體現在用戶體驗上,尤其是 C 端用戶可能不愿意等待太久。不過,如果 AI 的回答過快,超過正常人類對話的節奏,反而可能讓人懷疑回答的可靠性,甚至覺得不夠真誠。因此,AI 的節奏應該與人類的交互節奏相匹配,才能提供更自然的體驗。
李飛:關于 AI Agent 與人的交互,未來是否會是 AI 主動引導用戶,而不僅僅是被動響應? 欒劍: 這是一個重要方向。當前,AI Agent 大多是被動響應,等待用戶提問。未來,我們希望 AI 能有“主動智能”,主動記住用戶習慣,在合適的時候提醒用戶。例如,如果 AI 感知到某些環境變化,它可能會主動提醒用戶某些事情。當用戶提問不全時,AI 應該主動詢問更多細節,完善信息,而不是盲目回答。
李飛:那這種“圖譜化”的交互方式,是不是比簡單的直問直答更合適? 欒劍: 對,圖譜化能幫助 AI 更有邏輯地引導用戶,尤其在需要用戶填寫表格等場景中,AI 可以通過圖譜引導用戶逐步完成。而在更復雜的對話中,AI 通過不斷提問、澄清和補充信息,最終給出更完整、準確的答案。
李飛:王老師,在京東的實際應用中,AI Agent 面臨哪些技術難題和業務挑戰? 王譯堃: 整體上,市場接受度有了顯著提升。技術發展迅速,資金注入不斷,AI Agent 的應用場景變得豐富,尤其是 B 端企業在抓住這波技術機會時,C 端用戶也在逐漸感受到智能化的提升。主要挑戰在于交互效果的穩定性。特別是在電商和物流行業,價格、路徑等方面的容錯率要求非常高。同時,TTS 技術的欠缺也影響了對話的自然度,導致用戶感受到生硬的機器人語音,降低了體驗。不僅是客戶的信任,內部員工也存在質疑,特別是歷史上沒有大模型時,分類器做的工作給人的印象不佳,導致對 AI 的信任難以建立。此外,初期投資往往難以衡量回報,這增加了業務方面的挑戰。
李飛:您如何平衡 AI 和人的協作?尤其是在容錯率低的場景下,什么時候引入人工協助? 王譯堃: 人機協作可以并行也可以串行。我們會先在關鍵節點部署大模型,驗證其效果。如果成功,再逐步擴展到全鏈路。關于主動智能,AI 不僅依賴模型,還可以結合環境感知來主動采取行動,提升協同效率。對于容錯率低的場景,如數據分析等,AI 可能會先執行,但當遇到不穩定性時,需要人工確認。我們通過“human in the loop”方式,在關鍵環節引入人工干預,確保系統的穩定性和準確性。李飛: 關于 AI 的可信任性,尤其是在大模型的應用中,如何增強用戶對其信任?因為用戶往往不知道 AI 是如何作出回答的。欒劍: 最簡單的方法是通過引入人類監督,確保質量和責任可追溯。通過人為干預,大家會對 AI 結果更有信心,因為能追責,確保輸出是正確的。還使用多個智能體來監督和評判一個智能體的工作。如果實時性要求不高,可以在多個環節加入這種監督機制,通過綜合評判和打分提升準確度和可靠性。AI 系統可以通過強化學習或對比學習不斷改進和迭代,逐步提高準確性和智能度。如果能搭建起這種自動化的進化過程,AI 將變得更加高效。
李飛:AI 模型在做評判時,效果是否會比僅僅生成的效果更好? 欒劍: 確實如此。人類寫文章時,通過反復修改會變得更好,同樣,如果 AI 模型能對其生成的內容進行評判、反饋和修改,最終效果會更加精準。比如,AI 可以扮演作文批改的角色,幫助發現生成內容中的問題并進行優化。
李飛:對于大模型在 agent 工作流中的自我進化是如何思考的呢? 王譯堃: 關于這個問題,我之前也提到過,我們這邊主要依靠多肢體來進行質檢和監督,尤其是在各個環節中進行監控。特別是因為我們面向的是 B 端客戶,可能會出現一些不準確的情況,這可能帶來法務上的風險。所以,重點是在風控方面,我們專門開發了一些單獨的 agent,收集不良案例。如果在這些案例現了一些典型的情況,我們會反過來進行微調。另外,我們也希望能夠將更多的不確定場景轉化為確定的情況。舉個例子,在我們開發企業內部的問答類工具時,初期我們可能會采用 RAG(檢索增強生成)來進行信息檢索。但每次召回的語料可能不同,即使是相同的語料,給出的答案也不一定穩定。為了提高穩定性,我們會讓大模型聚焦在一些高頻問題上,提取固定答案,將更多的不確定因素轉化為確定答案,從而減少線上風險。欒劍: 我們也做過一些思考。對于 C 端用戶來說,我認為個性化最好在本地實現,無論是通過本地記憶或微調本地模型。端側大模型的優勢在于此,但目前端側訓練仍面臨算力和數據清洗的挑戰。數據清洗不當可能導致模型迭代效果變差。因此,目前的成熟做法是將用戶歷史信息清洗并存儲在本地知識庫中,用戶有相關需求時再從中提取記憶,加入模型輸入中。這種方式在目前看來比較穩定可靠。李飛: 我也有類似的嘗試。我們做企業智能分析產品,個性化方面主要通過員工標簽來實現。例如,通過部門和關注的分析領域(如經營分析、門店分析等)來主動推送分析場景,幫助用戶冷啟動。另外,我們也用記憶型個性化。用戶執行任務時,任務狀態和結果會通過 RAG 或知識庫存儲。當用戶第二天登錄時,系統會根據前一天的任務情況主動詢問任務是否完成,效果如何。這樣做有助于個性化與實際場景的結合。
李飛:AI Agent 的發展是否會對未來的企業組織結構和員工角色產生影響?如果有,具體會怎樣改變我們的工作方式和企業文化? 王譯堃: 肯定的。某些職位可能會被高效、低成本的大模型取代,但也會有新部門或新角色出現,組織架構會受到影響。大模型帶來的降本增效效果非常明顯,這與當前企業文化非常契合。
李飛:未來是否會出現從集體化的工作方式轉變為類似工作坊、小作坊式的辦公模式? 王譯堃: 我不認為會完全轉變。大模型的引入,雖然能提升某些特定角色的效率,但也會帶來新的角色或工作崗位的出現。人力并不會越來越少,而是從數量向質量轉化的過程。也就是說,工作方式可能會優化,但人數不會大幅減少。欒劍: 隨著智能體的日益強大,管理者的比例可能會上升,因為很多一線工作可以由智能體完成。這意味著產品經理和技術管理者將變得更加重要,更多地承擔設計和協調的角色。未來,智能體可能發展到足夠成熟,以至于公司只需一個 CEO,其他職位都由智能體擔任。這是一個極端的設想,但如果人人都能輕松創建公司,社會的創造力將得到充分釋放,進而加速社會的進步和變革。李飛:曾有人說,如果生產力提升了百倍,生產關系將發生根本性變化。雖然現在的大模型和 AI 還未達到這種提升幅度,但它們正朝著這個方向發展。
李飛:如果大模型和 AI agent 發展到極致,我們與技術或產品的交互方式會是什么樣的? 王譯堃: 還是剛剛提到的智能駕駛,它將深刻影響我們的日常生活和交通方式。欒劍: 我有些悲觀。如果 AGI 或大模型的智能超過人類,我們可能不再需要與其交互,只需接受它給出的答案。現在我們需要大模型給出理由,是因為我們對結果缺乏信任。但如果每次模型的結果都比我們的判斷更準確,可能就不再關心理由,只要相信它的答案,就像我們信任一個非常聰明的朋友一樣。終極形態下,智能體可能會成為我們極度依賴的工具。但我認為智能體不會顛覆人類社會。就像機械設備早已超越人類的力量,但它們依然是人類的工具。智能體也應如此,除非它們發展出自我意識,那時可能會帶來一些風險。李飛: 機器人看起來像人類一樣,雖然這種情況可能還很遠,但若能發展到那種水平,確實會給人類社會帶來變革。會議推薦12 月 13 日至 14 日(周五至周六),AICon 全球人工智能開發與應用大會將在北京盛大開幕!本次大會匯聚 70+ 位 AI 及技術領域的頂尖專家,深入探討大模型與推理、AI Agent、多模態、具身智能等前沿話題。此外還有豐富的圓桌論壇、以及展區活動,帶你深入探索大模型的最新實踐與未來趨勢。年度最后一次 AI 盛宴,讓我們一起見證 AI 未來。今日薦文阿里合伙人為“爹味發言”道歉:自罰三個月工資;美圖出售加密貨幣獲利5.7億;虧損11億、上市對賭失敗,公司啟動全員降薪 | AI周報OpenAI深夜炸場!一口氣放出o1模型全家桶,月費200美元的ChatGPT Pro被狂槽:Altman只想躺在上數錢谷歌最強世界模型“硬控”OpenAI 一分鐘:智能體交互、替你玩游戲!等等,智能體們早在游戲里 cosplay、交友了!被字節索賠 800 萬實習生奪 NeurIPS 最佳論文,豆包 team 邀同屆獲獎人現場 chat!網友:字節要錢還是要人?裁掉 1.5 萬人后,英特爾傳奇 CEO :18 歲入職,風雨 40 載,如今成了“背鍋俠”?你也「在看」嗎??