PC Agent-E

PC Agent-E – 上海交大聯合SII推出的智能體訓練框架

PC Agent-E

PC Agent-E是一個由上海交通大學與SII合作開發的高效智能體訓練框架。該框架通過312條經人類標注的計算機使用軌跡，利用Claude 3.7 Sonnet模型生成多樣化的行動決策，顯著提升了數據質量。PC Agent-E在WindowsAgentArena-V2基準測試中實現了241%的性能提升，超越了Claude 3.7 Sonnet的擴展思維模式，成為Windows系統上開源計算機智能體的新一代SOTA。

PC Agent-E是什么

PC Agent-E是上海交通大學與SII聯合推出的一種高效智能體訓練框架。它通過312條人類標注的計算機使用軌跡，結合Claude 3.7 Sonnet模型，合成多樣化的行動決策，從而顯著提升數據的質量。該框架包含四大核心模塊：軌跡收集、思維鏈補全、軌跡增強和代理訓練。在WindowsAgentArena-V2基準測試中，PC Agent-E實現了241%的性能提升，超越了Claude 3.7 Sonnet的extended thinking模式，成為新一代開源電腦智能體的標桿。

PC Agent-E的主要功能

高效訓練：只需312條人類標注軌跡，通過數據增強技術顯著提升模型性能。
跨平臺泛化：在OSWorld基準測試中展示出強大的跨平臺能力，適用于多種操作系統。
任務執行：能夠處理各種復雜任務，如文件管理、軟件操作和網頁瀏覽等。
數據增強：通過合成多樣化的行動決策，豐富軌跡數據，提升模型的泛化能力。

PC Agent-E的技術原理

軌跡收集（Trajectory Collection）：利用PC Tracker工具記錄人類操作軌跡，包括任務描述、屏幕截圖，以及鍵盤和鼠標操作。通過簡單的標注過程，收集少量高質量的操作軌跡。
思維鏈補全（Thought Completion）：基于Claude 3.7 Sonnet模型，為每個動作步驟添加背后的思考邏輯。根據任務描述、歷史動作和當前狀態，生成符合人類思維的推理過程。
軌跡增強（Trajectory Boost）：為軌跡的每一步合成更多的動作選擇，以捕捉任務的多樣性。使用Claude 3.7 Sonnet模型，為每一步生成多個合理的動作決策，豐富軌跡數據。
代理訓練（Agent Training）：在開源模型Qwen2.5-VL-72B的基礎上進行訓練。通過簡單的端到端訓練框架，確保模型能夠高效地學習和執行任務。
評估與驗證：在WindowsAgentArena-V2和OSWorld基準測試中評估模型性能，調整合成動作的數量，驗證軌跡增強方法對性能提升的關鍵作用。