能跨App比價的手機AI助手,UIUC阿里開源可自我進化多能體框架,超越SOTA性能33.9%
層次化多智能體框架,有長期記憶模塊,可自我進化
原標題:能跨App比價的手機AI助手,UIUC阿里開源可自我進化多能體框架,超越SOTA性能33.9%
文章來源:量子位
內(nèi)容字數(shù):6050字
Mobile-Agent-E:一款自我進化的智能手機助手
1. **引言:** 現(xiàn)代人每天花費大量時間在手機上,人們需要一個更智能的助手來處理復(fù)雜任務(wù)。現(xiàn)有的手機助手功能有限,難以應(yīng)對多步驟、跨應(yīng)用的操作。UIUC和阿里通義實驗室聯(lián)合推出的Mobile-Agent-E框架,旨在解決這一問題,它能夠執(zhí)行復(fù)雜推理、多步規(guī)劃以及跨應(yīng)用操作,并具備自我進化能力。
2. 多層級多智能體架構(gòu)
2.1 **核心思想:** Mobile-Agent-E采用層次化的多智能體架構(gòu),將高層規(guī)劃與低層動作執(zhí)行區(qū)分開來,提升了長期規(guī)劃和錯誤恢復(fù)能力。它由一個“經(jīng)理”和四個“助手”組成。
2.2 **智能體組成:**
- 管理者(Manager): 基于大型多模態(tài)模型(LMM),負責(zé)高層規(guī)劃和錯誤處理。
- 感知者(Perceptor): 基于視覺的感知模塊,負責(zé)識別文本和圖標信息。
- 操作員(Operator): 基于LMM,負責(zé)執(zhí)行具體操作,并參考長期記憶中的提示(Tips)。
- 動作反思者(Action Reflector): 基于LMM,驗證動作結(jié)果,并提供反饋。
- 記錄員(Notetaker): 記錄重要信息,例如商品價格等。
2.3 **工作流程:** 管理者制定計劃,操作員執(zhí)行,反思者驗證結(jié)果,記錄員記錄信息。錯誤發(fā)生時,操作員先嘗試解決,解決不了則上報給管理者。
3. 自我進化模塊
3.1 **核心機制:** Mobile-Agent-E引入了自我進化模塊,通過學(xué)習(xí)經(jīng)驗來提升效率。它定義了兩種知識類型:提示(Tips)和捷徑(Shortcuts)。
3.2 **Tips和Shortcuts:** Tips是關(guān)于有效交互的一般指導(dǎo),類似情景記憶;Shortcuts是可復(fù)用的技能,類似程序性知識。它們存儲在長期記憶模塊中,并根據(jù)任務(wù)完成情況不斷更新。
3.3 **經(jīng)驗反思者:** 兩個經(jīng)驗反思者根據(jù)任務(wù)記錄和錯誤日志優(yōu)化Tips和Shortcuts。
3.4 **經(jīng)驗檢索代理:** 為了應(yīng)對長期記憶中信息過載的問題,引入了經(jīng)驗檢索代理,只提取與新任務(wù)相關(guān)的Tips和Shortcuts。
4. 全新基準測試與實驗結(jié)果
4.1 **Mobile-Eval-E Benchmark:** 研究團隊設(shè)計了新的基準測試數(shù)據(jù)集Mobile-Eval-E,它比現(xiàn)有數(shù)據(jù)集更復(fù)雜,包含更多步驟和跨應(yīng)用交互。
4.2 **滿意度得分(Satisfaction Score):** 采用新的評估指標——滿意度得分,更符合人類偏好,考慮了關(guān)鍵步驟和探索。
4.3 **實驗結(jié)果:** Mobile-Agent-E在多個基礎(chǔ)模型上超越了現(xiàn)有SOTA,啟用自我進化模塊后性能進一步提升,滿意度得分提升了33.9%。
5. 結(jié)論
Mobile-Agent-E通過多層級多智能體架構(gòu)和自我進化模塊,實現(xiàn)了更強大的手機智能體。其在復(fù)雜任務(wù)上的出色表現(xiàn),以及自我學(xué)習(xí)能力,為未來構(gòu)建更智能的手機助手提供了新的方向。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破