“Operator”被截胡了

原標題:搶先OpenAI“虛擬員工”!清華復旦斯坦福聯手,讓Agent接管電腦幫你工作
文章來源:量子位
內容字數:5958字
清華、復旦、斯坦福學者開源Eko框架:搶先OpenAI“Operator”,打造生產級虛擬員工
近日,清華大學、復旦大學和斯坦福大學的研究者聯合發布了一個名為Eko的Agent開發框架,其功能與OpenAI即將發布的“Operator”高度相似,甚至搶先一步開源。Eko允許開發者使用簡潔的代碼和自然語言快速構建可用于生產環境的“虛擬員工”Agent,能夠接管用戶的電腦和瀏覽器,自動完成各種任務。
1. Eko框架的核心技術創新
Eko的成功主要基于以下三項核心技術創新:
混合智能體表示 (Mixed Agentic representation):Eko無縫結合了自然語言(用于高層次設計)和程序語言(用于低層次實現),簡化了Agent的開發流程。
跨平臺Agent框架:Eko采用環境感知架構,支持同一套框架和編程語言在瀏覽器、電腦和瀏覽器插件等多種環境下運行。
生產級干預機制:不同于現有Agent框架普遍強調的自主性,Eko提供了顯性的生產級干預機制,允許人類隨時中斷和調整智能體的工作流,確保安全性和可控性。
2. Eko的跨平臺能力與環境感知架構
Eko的跨平臺能力由其環境感知架構實現,該架構包含三個關鍵層次:
通用核心 (Universal Core):提供與環境無關的基本功能,如工作流管理、工具注冊管理、大語言模型(LLM)集成和鉤子系統。
環境特定工具 (Environment-Specific Tools):為不同環境(瀏覽器擴展、Web環境、Node.js環境等)提供優化的工具集。
環境橋接 (Environment Bridge):負責環境檢測、工具注冊、資源管理和安全控制,確保不同平臺間的順利交互。
Eko通過自動工具注冊功能(例如`loadTools()`),實現開發者在不同環境間的無縫切換。
3. Eko的層次化規劃和優化機制
Eko采用層次化感知框架,將任務拆解為規劃層(Planning layer)和執行層(Execution layer)。規劃層將用戶需求(自然語言或代碼)和工具集拆解成領域特定語言(DSL)表示的任務圖,該任務圖由LLM一次性生成。執行層則根據任務圖調用LLM生成具體的執行行為和工具調用。Eko還具備多步合并優化機制,可以將多次LLM調用合并成一次,提高效率。
4. Eko的視覺-交互要素聯合感知 (VIEP)
Eko的VIEP框架是一種新穎的瀏覽器感知解決方案,通過結合視覺識別和元素上下文信息,提高了在復雜網頁中任務的精度和效率。VIEP通過提取網頁交互元素并映射到DSL,生成高效的偽HTML代碼,簡化了元素表示,并顯著降低了資源消耗。
5. Eko的生產級可干預機制與鉤子系統
Eko提供三種層級的鉤子(Workflow Hooks、Subtask Hooks、Tool Hooks),允許開發者在工作流的不同階段進行監控、調整和干預,提高自動化系統的精度和效率,并確保業務流程的順暢。
總而言之,Eko框架憑借其創新技術和開源特性,為構建生產級虛擬員工提供了強大的工具,并有望在自動化領域產生重大影響。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

粵公網安備 44011502001135號