<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        阿里PC-Agent重構(gòu)人機交互,精準(zhǔn)拆解跨應(yīng)用指令,自動化辦公更進一步

        AIGC動態(tài)2個月前發(fā)布 量子位
        193 0 0

        面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架

        阿里PC-Agent重構(gòu)人機交互,精準(zhǔn)拆解跨應(yīng)用指令,自動化辦公更進一步

        原標(biāo)題:阿里PC-Agent重構(gòu)人機交互,精準(zhǔn)拆解跨應(yīng)用指令,自動化辦公更進一步
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):4315字

        阿里通義實驗室提出PC-Agent:賦能PC復(fù)雜任務(wù)自動化的多模態(tài)智能體框架

        本文介紹了阿里通義實驗室提出的PC-Agent框架,這是一個面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架,旨在實現(xiàn)PC端應(yīng)用程序間的自動化工作流。該框架顯著提升了在復(fù)雜PC任務(wù)上的性能表現(xiàn),超越了現(xiàn)有方法。

        1. PC任務(wù)自動化的挑戰(zhàn):與手機相比,PC場景的復(fù)雜性體現(xiàn)在兩個方面:一是PC界面包含更密集多樣的可交互元素和不同布局的文本,給細粒度感知帶來挑戰(zhàn);二是PC常用于生產(chǎn)力場景,涉及更多復(fù)雜的App內(nèi)及跨App工作流,包含更復(fù)雜的任務(wù)序列。現(xiàn)有方法如UFO和Agent-S在處理這些復(fù)雜性方面存在不足。

        2. PC-Agent的核心設(shè)計:為了解決這些挑戰(zhàn),PC-Agent框架采用了兩個關(guān)鍵設(shè)計:

        2.1 主動感知模塊(APM): APM能夠?qū)崿F(xiàn)對屏幕內(nèi)容的精細感知和操作。對于可交互元素,它通過提取屏幕的accessibility tree獲取位置和功能描述信息;對于文本信息,它利用基于多模態(tài)大模型(MLLM)的意圖理解模塊提取目標(biāo)文本的起止范圍,并使用OCR工具進行精確定位和后續(xù)操作。

        2.2 層次化多智能體協(xié)作結(jié)構(gòu): PC-Agent將復(fù)雜指令分解為指令-子任務(wù)-動作三個層次,并分別設(shè)置Manager、Progress、Decision和Reflection智能體。Manager智能體負責(zé)將復(fù)雜指令分解為子任務(wù)并進行跨子任務(wù)通信;Progress智能體跟蹤和總結(jié)子任務(wù)執(zhí)行進度;Decision智能體根據(jù)感知信息和進度信息生成操作決策;Reflection智能體評估操作效果并反饋異常情況。

        3. PC-Eval指令集:為了更好地評估智能體在復(fù)雜PC任務(wù)上的表現(xiàn),研究人員構(gòu)建了PC-Eval指令集,包含25條涉及8個常用PC應(yīng)用的復(fù)雜指令,這些指令強調(diào)精細化操作和長程決策,更貼近實際工作流。

        4. 實驗結(jié)果與分析:實驗結(jié)果表明,現(xiàn)有基于先進MLLM的單智能體方法幾乎無法完成任何復(fù)雜指令。與UFO和Agent-S相比,PC-Agent在精細感知、操作能力和處理子任務(wù)間復(fù)雜依賴方面表現(xiàn)顯著優(yōu)越。例如,PC-Agent能夠正確處理跨應(yīng)用程序的任務(wù),例如將一個文檔的內(nèi)容翻譯后寫入另一個文檔,而其他方法則無法做到。

        5. 樣例展示:文章展示了PC-Agent在搜索多項信息并編輯Excel表格、以及在Word文檔中進行編輯操作的樣例,并強調(diào)了Reflection智能體在發(fā)現(xiàn)無效操作并反饋給Decision智能體的作用。

        6. 總結(jié):PC-Agent框架通過主動感知模塊和層次化多智能體協(xié)作結(jié)構(gòu),有效解決了復(fù)雜PC任務(wù)自動化中的感知和決策難題。其在復(fù)雜任務(wù)上的顯著性能提升,為未來PC端AI自動化應(yīng)用提供了新的方向。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲综合久久1区2区3区| 亚洲精品无码日韩国产不卡av| 亚洲性日韩精品一区二区三区| 亚洲欧洲日本在线观看 | 114一级毛片免费| 日本亚洲高清乱码中文在线观看| 亚洲视频人成在线播放| 亚洲一级毛片免费看| 日韩精品视频在线观看免费| 亚洲国产精品婷婷久久| 成人免费777777| 久草免费福利视频| 亚洲精品理论电影在线观看| 亚洲av一综合av一区| 免费A级毛片无码久久版| 18女人毛片水真多免费| 青青青视频免费观看| 久久久久se色偷偷亚洲精品av| 亚洲一级片内射网站在线观看| 免费看黄视频网站| 青青操免费在线视频| 亚洲日韩在线中文字幕综合| 亚洲视频在线观看视频| 中文字幕亚洲日本岛国片| 成人毛片免费网站| 99在线观看精品免费99| 有码人妻在线免费看片| 亚洲色成人四虎在线观看| 亚洲精品动漫在线| 亚洲人精品午夜射精日韩| 免费在线观看理论片| 无码中文字幕av免费放| 99热这里只有精品6免费| 一级日本高清视频免费观看| 亚洲av无码无线在线观看 | 麻豆91免费视频| 亚洲色一区二区三区四区| 亚洲欧洲日产韩国在线| 亚洲AV无码成人精品区天堂 | 亚洲AV无码一区二区三区牲色| 亚洲欧洲日产专区|