面向復雜PC任務的多模態智能體框架
原標題:阿里PC-Agent重構人機交互,精準拆解跨應用指令,自動化辦公更進一步
文章來源:量子位
內容字數:4315字
阿里通義實驗室提出PC-Agent:賦能PC復雜任務自動化的多模態智能體框架
本文介紹了阿里通義實驗室提出的PC-Agent框架,這是一個面向復雜PC任務的多模態智能體框架,旨在實現PC端應用程序間的自動化工作流。該框架顯著提升了在復雜PC任務上的性能表現,超越了現有方法。
1. PC任務自動化的挑戰:與手機相比,PC場景的復雜性體現在兩個方面:一是PC界面包含更密集多樣的可交互元素和不同布局的文本,給細粒度感知帶來挑戰;二是PC常用于生產力場景,涉及更多復雜的App內及跨App工作流,包含更復雜的任務序列。現有方法如UFO和Agent-S在處理這些復雜性方面存在不足。
2. PC-Agent的核心設計:為了解決這些挑戰,PC-Agent框架采用了兩個關鍵設計:
2.1 主動感知模塊(APM): APM能夠實現對屏幕內容的精細感知和操作。對于可交互元素,它通過提取屏幕的accessibility tree獲取位置和功能描述信息;對于文本信息,它利用基于多模態大模型(MLLM)的意圖理解模塊提取目標文本的起止范圍,并使用OCR工具進行精確定位和后續操作。
2.2 層次化多智能體協作結構: PC-Agent將復雜指令分解為指令-子任務-動作三個層次,并分別設置Manager、Progress、Decision和Reflection智能體。Manager智能體負責將復雜指令分解為子任務并進行跨子任務通信;Progress智能體跟蹤和總結子任務執行進度;Decision智能體根據感知信息和進度信息生成操作決策;Reflection智能體評估操作效果并反饋異常情況。
3. PC-Eval指令集:為了更好地評估智能體在復雜PC任務上的表現,研究人員構建了PC-Eval指令集,包含25條涉及8個常用PC應用的復雜指令,這些指令強調精細化操作和長程決策,更貼近實際工作流。
4. 實驗結果與分析:實驗結果表明,現有基于先進MLLM的單智能體方法幾乎無法完成任何復雜指令。與UFO和Agent-S相比,PC-Agent在精細感知、操作能力和處理子任務間復雜依賴方面表現顯著優越。例如,PC-Agent能夠正確處理跨應用程序的任務,例如將一個文檔的內容翻譯后寫入另一個文檔,而其他方法則無法做到。
5. 樣例展示:文章展示了PC-Agent在搜索多項信息并編輯Excel表格、以及在Word文檔中進行編輯操作的樣例,并強調了Reflection智能體在發現無效操作并反饋給Decision智能體的作用。
6. 總結:PC-Agent框架通過主動感知模塊和層次化多智能體協作結構,有效解決了復雜PC任務自動化中的感知和決策難題。其在復雜任務上的顯著性能提升,為未來PC端AI自動化應用提供了新的方向。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破