阿里PC-Agent重構(gòu)人機交互，精準(zhǔn)拆解跨應(yīng)用指令，自動化辦公更進一步

面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架

原標(biāo)題：阿里PC-Agent重構(gòu)人機交互，精準(zhǔn)拆解跨應(yīng)用指令，自動化辦公更進一步
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4315字

阿里通義實驗室提出PC-Agent：賦能PC復(fù)雜任務(wù)自動化的多模態(tài)智能體框架

本文介紹了阿里通義實驗室提出的PC-Agent框架，這是一個面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架，旨在實現(xiàn)PC端應(yīng)用程序間的自動化工作流。該框架顯著提升了在復(fù)雜PC任務(wù)上的性能表現(xiàn)，超越了現(xiàn)有方法。

1. PC任務(wù)自動化的挑戰(zhàn)：與手機相比，PC場景的復(fù)雜性體現(xiàn)在兩個方面：一是PC界面包含更密集多樣的可交互元素和不同布局的文本，給細粒度感知帶來挑戰(zhàn)；二是PC常用于生產(chǎn)力場景，涉及更多復(fù)雜的App內(nèi)及跨App工作流，包含更復(fù)雜的任務(wù)序列。現(xiàn)有方法如UFO和Agent-S在處理這些復(fù)雜性方面存在不足。

2. PC-Agent的核心設(shè)計：為了解決這些挑戰(zhàn)，PC-Agent框架采用了兩個關(guān)鍵設(shè)計：

2.1 主動感知模塊(APM)： APM能夠?qū)崿F(xiàn)對屏幕內(nèi)容的精細感知和操作。對于可交互元素，它通過提取屏幕的accessibility tree獲取位置和功能描述信息；對于文本信息，它利用基于多模態(tài)大模型(MLLM)的意圖理解模塊提取目標(biāo)文本的起止范圍，并使用OCR工具進行精確定位和后續(xù)操作。

2.2 層次化多智能體協(xié)作結(jié)構(gòu)： PC-Agent將復(fù)雜指令分解為指令-子任務(wù)-動作三個層次，并分別設(shè)置Manager、Progress、Decision和Reflection智能體。Manager智能體負責(zé)將復(fù)雜指令分解為子任務(wù)并進行跨子任務(wù)通信；Progress智能體跟蹤和總結(jié)子任務(wù)執(zhí)行進度；Decision智能體根據(jù)感知信息和進度信息生成操作決策；Reflection智能體評估操作效果并反饋異常情況。

3. PC-Eval指令集：為了更好地評估智能體在復(fù)雜PC任務(wù)上的表現(xiàn)，研究人員構(gòu)建了PC-Eval指令集，包含25條涉及8個常用PC應(yīng)用的復(fù)雜指令，這些指令強調(diào)精細化操作和長程決策，更貼近實際工作流。

4. 實驗結(jié)果與分析：實驗結(jié)果表明，現(xiàn)有基于先進MLLM的單智能體方法幾乎無法完成任何復(fù)雜指令。與UFO和Agent-S相比，PC-Agent在精細感知、操作能力和處理子任務(wù)間復(fù)雜依賴方面表現(xiàn)顯著優(yōu)越。例如，PC-Agent能夠正確處理跨應(yīng)用程序的任務(wù)，例如將一個文檔的內(nèi)容翻譯后寫入另一個文檔，而其他方法則無法做到。

5. 樣例展示：文章展示了PC-Agent在搜索多項信息并編輯Excel表格、以及在Word文檔中進行編輯操作的樣例，并強調(diào)了Reflection智能體在發(fā)現(xiàn)無效操作并反饋給Decision智能體的作用。

6. 總結(jié)：PC-Agent框架通過主動感知模塊和層次化多智能體協(xié)作結(jié)構(gòu)，有效解決了復(fù)雜PC任務(wù)自動化中的感知和決策難題。其在復(fù)雜任務(wù)上的顯著性能提升，為未來PC端AI自動化應(yīng)用提供了新的方向。

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動態(tài)# PC-Agent人機交互重構(gòu)# 人工智能驅(qū)動辦公自動化 # 自動化辦公精準(zhǔn)指令 # 跨應(yīng)用指令自動化辦公 # 阿里PC-Agent跨應(yīng)用指令自動化

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

阿里PC-Agent重構(gòu)人機交互，精準(zhǔn)拆解跨應(yīng)用指令，自動化辦公更進一步

面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架

阿里通義實驗室提出PC-Agent：賦能PC復(fù)雜任務(wù)自動化的多模態(tài)智能體框架

聯(lián)系作者

玄鐵首款服務(wù)器級 CPU 下月交付：性能達服務(wù)器級，搭載 Matrix AI 引擎

DeepSeek開源連擊、Claude編碼升級、GPT性能迷局，系統(tǒng)解讀大模型諸神之戰(zhàn) | 萬有引力

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點