PC Agent-E – 上海交大聯合SII推出的智能體訓練框架
PC Agent-E是一個由上海交通大學與SII合作開發的高效智能體訓練框架。該框架通過312條經人類標注的計算機使用軌跡,利用Claude 3.7 Sonnet模型生成多樣化的行動決策,顯著提升了數據質量。PC Agent-E在WindowsAgentArena-V2基準測試中實現了241%的性能提升,超越了Claude 3.7 Sonnet的擴展思維模式,成為Windows系統上開源計算機智能體的新一代SOTA。
PC Agent-E是什么
PC Agent-E是上海交通大學與SII聯合推出的一種高效智能體訓練框架。它通過312條人類標注的計算機使用軌跡,結合Claude 3.7 Sonnet模型,合成多樣化的行動決策,從而顯著提升數據的質量。該框架包含四大核心模塊:軌跡收集、思維鏈補全、軌跡增強和代理訓練。在WindowsAgentArena-V2基準測試中,PC Agent-E實現了241%的性能提升,超越了Claude 3.7 Sonnet的extended thinking模式,成為新一代開源電腦智能體的標桿。
PC Agent-E的主要功能
- 高效訓練:只需312條人類標注軌跡,通過數據增強技術顯著提升模型性能。
- 跨平臺泛化:在OSWorld基準測試中展示出強大的跨平臺能力,適用于多種操作系統。
- 任務執行:能夠處理各種復雜任務,如文件管理、軟件操作和網頁瀏覽等。
- 數據增強:通過合成多樣化的行動決策,豐富軌跡數據,提升模型的泛化能力。
PC Agent-E的技術原理
- 軌跡收集(Trajectory Collection):利用PC Tracker工具記錄人類操作軌跡,包括任務描述、屏幕截圖,以及鍵盤和鼠標操作。通過簡單的標注過程,收集少量高質量的操作軌跡。
- 思維鏈補全(Thought Completion):基于Claude 3.7 Sonnet模型,為每個動作步驟添加背后的思考邏輯。根據任務描述、歷史動作和當前狀態,生成符合人類思維的推理過程。
- 軌跡增強(Trajectory Boost):為軌跡的每一步合成更多的動作選擇,以捕捉任務的多樣性。使用Claude 3.7 Sonnet模型,為每一步生成多個合理的動作決策,豐富軌跡數據。
- 代理訓練(Agent Training):在開源模型Qwen2.5-VL-72B的基礎上進行訓練。通過簡單的端到端訓練框架,確保模型能夠高效地學習和執行任務。
- 評估與驗證:在WindowsAgentArena-V2和OSWorld基準測試中評估模型性能,調整合成動作的數量,驗證軌跡增強方法對性能提升的關鍵作用。
PC Agent-E的項目地址
- 項目官網:https://gair-nlp.github.io/PC-Agent-E/
- GitHub倉庫:https://github.com/GAIR-NLP/PC-Agent-E
- HuggingFace模型庫:https://huggingface.co/henryhe0123/PC-Agent-E
- arXiv技術論文:https://arxiv.org/pdf/2505.13909
PC Agent-E的應用場景
- 自動化辦公:自動化完成文檔編輯、數據分析等任務,從而提高工作效率。
- 軟件測試:模擬用戶操作,檢測軟件中的錯誤和問題,提升軟件的整體質量。
- 教育輔助:作為虛擬助教,幫助學生完成計算機操作任務,提供即時指導。
- 輔助殘障人士:提供輔助操作功能,便利殘障人士使用計算機。
- 跨平臺兼容:在不同操作系統之間遷移和執行任務,實現無縫切換。
常見問題
- PC Agent-E適用于哪些操作系統? PC Agent-E具備強大的跨平臺能力,適用于多種操作系統,包括Windows、Linux等。
- 如何獲取PC Agent-E? 用戶可以通過項目官網或GitHub倉庫獲取PC Agent-E的相關資料和代碼。
- PC Agent-E的訓練數據來源是什么? 訓練數據來自312條經過人類標注的計算機使用軌跡,確保數據的高質量和多樣性。
- PC Agent-E能否處理復雜任務? 是的,PC Agent-E能夠處理各種復雜任務,如文件管理、軟件使用和網頁瀏覽等。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...