阿里PC-Agent重構(gòu)人機交互,精準(zhǔn)拆解跨應(yīng)用指令,自動化辦公更進一步
面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架
原標(biāo)題:阿里PC-Agent重構(gòu)人機交互,精準(zhǔn)拆解跨應(yīng)用指令,自動化辦公更進一步
文章來源:量子位
內(nèi)容字?jǐn)?shù):4315字
阿里通義實驗室提出PC-Agent:賦能PC復(fù)雜任務(wù)自動化的多模態(tài)智能體框架
本文介紹了阿里通義實驗室提出的PC-Agent框架,這是一個面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架,旨在實現(xiàn)PC端應(yīng)用程序間的自動化工作流。該框架顯著提升了在復(fù)雜PC任務(wù)上的性能表現(xiàn),超越了現(xiàn)有方法。
1. PC任務(wù)自動化的挑戰(zhàn):與手機相比,PC場景的復(fù)雜性體現(xiàn)在兩個方面:一是PC界面包含更密集多樣的可交互元素和不同布局的文本,給細粒度感知帶來挑戰(zhàn);二是PC常用于生產(chǎn)力場景,涉及更多復(fù)雜的App內(nèi)及跨App工作流,包含更復(fù)雜的任務(wù)序列。現(xiàn)有方法如UFO和Agent-S在處理這些復(fù)雜性方面存在不足。
2. PC-Agent的核心設(shè)計:為了解決這些挑戰(zhàn),PC-Agent框架采用了兩個關(guān)鍵設(shè)計:
2.1 主動感知模塊(APM): APM能夠?qū)崿F(xiàn)對屏幕內(nèi)容的精細感知和操作。對于可交互元素,它通過提取屏幕的accessibility tree獲取位置和功能描述信息;對于文本信息,它利用基于多模態(tài)大模型(MLLM)的意圖理解模塊提取目標(biāo)文本的起止范圍,并使用OCR工具進行精確定位和后續(xù)操作。
2.2 層次化多智能體協(xié)作結(jié)構(gòu): PC-Agent將復(fù)雜指令分解為指令-子任務(wù)-動作三個層次,并分別設(shè)置Manager、Progress、Decision和Reflection智能體。Manager智能體負責(zé)將復(fù)雜指令分解為子任務(wù)并進行跨子任務(wù)通信;Progress智能體跟蹤和總結(jié)子任務(wù)執(zhí)行進度;Decision智能體根據(jù)感知信息和進度信息生成操作決策;Reflection智能體評估操作效果并反饋異常情況。
3. PC-Eval指令集:為了更好地評估智能體在復(fù)雜PC任務(wù)上的表現(xiàn),研究人員構(gòu)建了PC-Eval指令集,包含25條涉及8個常用PC應(yīng)用的復(fù)雜指令,這些指令強調(diào)精細化操作和長程決策,更貼近實際工作流。
4. 實驗結(jié)果與分析:實驗結(jié)果表明,現(xiàn)有基于先進MLLM的單智能體方法幾乎無法完成任何復(fù)雜指令。與UFO和Agent-S相比,PC-Agent在精細感知、操作能力和處理子任務(wù)間復(fù)雜依賴方面表現(xiàn)顯著優(yōu)越。例如,PC-Agent能夠正確處理跨應(yīng)用程序的任務(wù),例如將一個文檔的內(nèi)容翻譯后寫入另一個文檔,而其他方法則無法做到。
5. 樣例展示:文章展示了PC-Agent在搜索多項信息并編輯Excel表格、以及在Word文檔中進行編輯操作的樣例,并強調(diào)了Reflection智能體在發(fā)現(xiàn)無效操作并反饋給Decision智能體的作用。
6. 總結(jié):PC-Agent框架通過主動感知模塊和層次化多智能體協(xié)作結(jié)構(gòu),有效解決了復(fù)雜PC任務(wù)自動化中的感知和決策難題。其在復(fù)雜任務(wù)上的顯著性能提升,為未來PC端AI自動化應(yīng)用提供了新的方向。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破