PC Agent – 上海交大聯(lián)合 GAIR 推出的電腦智能體AI系統(tǒng)
PC Agent是什么
PC Agent是由上海交通大學(xué)與Generative AI Research Lab (GAIR)共同開發(fā)的一款前沿人工智能系統(tǒng)。該系統(tǒng)模擬人類的認(rèn)知過程,能夠高效地執(zhí)行組織研究資料、撰寫報(bào)告和制作演示文稿等復(fù)雜的數(shù)字任務(wù)。PC Agent整合了PC Tracker,能夠高效地收集人機(jī)交互數(shù)據(jù),并通過兩階段認(rèn)知流程將原始數(shù)據(jù)轉(zhuǎn)化為具有認(rèn)知價(jià)值的軌跡。其多智能體系統(tǒng)架構(gòu)結(jié)合了規(guī)劃智能體與定位智能體,實(shí)現(xiàn)了精準(zhǔn)的視覺定位與決策制定。在有限的高質(zhì)量認(rèn)知數(shù)據(jù)訓(xùn)練下,PC Agent能夠處理多達(dá)50步的復(fù)雜工作流程,展現(xiàn)出卓越的數(shù)據(jù)利用效率和實(shí)際應(yīng)用潛力。
PC Agent的主要功能
- 任務(wù)自動化:自動執(zhí)行復(fù)雜的數(shù)字化任務(wù),諸如組織研究材料、撰寫報(bào)告及制作演示文稿。
- 人機(jī)交互數(shù)據(jù)收集:通過PC Tracker收集用戶與計(jì)算機(jī)的交互軌跡和認(rèn)知上下文信息。
- 認(rèn)知軌跡轉(zhuǎn)化:利用兩階段認(rèn)知流程將原始交互數(shù)據(jù)轉(zhuǎn)換為富含認(rèn)知信息的軌跡。
- 復(fù)雜工作處理:能夠處理涉及多個(gè)應(yīng)用程序的復(fù)雜工作流程,例如在PowerPoint與瀏覽器之間切換以收集信息。
- 多智能體協(xié)作:結(jié)合規(guī)劃智能體與定位智能體,確保決策的有效性與視覺定位的準(zhǔn)確性。
- 少量數(shù)據(jù)訓(xùn)練:僅依賴少量的認(rèn)知軌跡數(shù)據(jù),便能執(zhí)行復(fù)雜的工作流程。
PC Agent的技術(shù)原理
- PC Tracker:
- 數(shù)據(jù)收集:在后臺默默運(yùn)行,記錄用戶的鍵盤與鼠標(biāo)活動,捕捉屏幕截圖,從而收集人機(jī)交互的數(shù)據(jù)。
- 跟蹤:采用基于的跟蹤策略,記錄關(guān)鍵用戶操作,以減少存儲需求而非持續(xù)的視頻流。
- 動作空間統(tǒng)一:將鍵盤和鼠標(biāo)操作整合為統(tǒng)一的動作空間,從而簡化AI對人類行為的理解。
- 認(rèn)知完成流程:
- 數(shù)據(jù)精煉:通過軌跡過濾、動作過濾與標(biāo)準(zhǔn)化,提升原始交互數(shù)據(jù)的質(zhì)量。
- 動作語義完成:為點(diǎn)擊相關(guān)動作補(bǔ)充語義信息,以生成高質(zhì)量的點(diǎn)擊目標(biāo)描述。
- 思維過程重建:基于動作語義信息,重建每個(gè)動作背后的隱含推理過程。
- 多智能體系統(tǒng):
- 規(guī)劃智能體:負(fù)責(zé)制定行動決策,基于學(xué)習(xí)人類認(rèn)知軌跡以獲得有效的規(guī)劃能力。
- 定位智能體:負(fù)責(zé)執(zhí)行點(diǎn)擊相關(guān)的動作,并具備自我驗(yàn)證機(jī)制,以實(shí)現(xiàn)接近人類的精準(zhǔn)度。
- 錯(cuò)誤修正機(jī)制:當(dāng)定位智能體發(fā)現(xiàn)規(guī)劃智能體試圖點(diǎn)擊的目標(biāo)在屏幕上不存在時(shí),會提示規(guī)劃智能體重新制定行動計(jì)劃。
PC Agent的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):gair-nlp.github.io/PC-Agent
- GitHub倉庫:https://github.com/GAIR-NLP/PC-Agen
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.17589
PC Agent的應(yīng)用場景
- 辦公自動化:自動創(chuàng)建和編輯文檔、表格以及演示文稿,從而提升日常辦公效率。
- 研究與學(xué)術(shù):整理和分析研究數(shù)據(jù),自動生成文獻(xiàn)綜述,輔助撰寫學(xué)術(shù)論文。
- 內(nèi)容創(chuàng)作:自動進(jìn)行排版和布局,提高內(nèi)容創(chuàng)作的效率和質(zhì)量。
- 項(xiàng)目管理:自動更新項(xiàng)目報(bào)告,協(xié)調(diào)團(tuán)隊(duì)任務(wù),優(yōu)化項(xiàng)目管理流程。
- 客戶服務(wù):管理客戶數(shù)據(jù),提供快速且個(gè)性化的客戶支持。
常見問題
- PC Agent的使用是否需要專業(yè)知識?:不需要,PC Agent設(shè)計(jì)為用戶友好,普通用戶也能輕松上手。
- 系統(tǒng)支持哪些操作系統(tǒng)?:PC Agent兼容主流操作系統(tǒng),如Windows和MacOS。
- 如何獲取PC Agent的更新?:用戶可以通過項(xiàng)目官網(wǎng)或GitHub頁面獲取最新版本和更新信息。
- PC Tracker的數(shù)據(jù)安全性如何保障?:PC Tracker嚴(yán)格遵循數(shù)據(jù)保護(hù)規(guī)范,確保用戶數(shù)據(jù)的安全性和隱私。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...