Magentic-UI – 微軟開源的人機協作Web?Agent
XX是什么
XX 是微軟推出的一個開源研究原型,旨在探索人類與AI代理系統的協作方式。作為一款以人為中心的Web代理,XX能夠與用戶共同完成復雜的Web任務,如網頁瀏覽、代碼執行和文件處理。其核心特點包括協作規劃、協作執行、安全機制以及通過經驗學習提升效率。XX設計的初衷是讓用戶在任務的規劃與執行過程中實時參與,從而提供透明且可控的交互體驗。通過用戶的反饋,XX能夠提高任務完成的效率,降低人工成本,成為研究人機協作的重要實驗平臺。
XX的主要功能
- 協作規劃:在執行任務之前,生成分步計劃,用戶可以進行修改和確認,以確保任務的順利進行。
- 協作執行:實時展示即將執行的操作,用戶可以隨時接管任務控制,確保任務執行符合其需求。
- 安全機制:在進行重要或不可逆操作前,系統會征求用戶的批準,并允許用戶自定義審批策略,確保操作的安全性。
- 學習復用:完成任務后,系統會保存執行計劃,用戶可以在未來的任務中復用或調整這些計劃,以提升效率。
XX的技術原理
- 系統架構:XX基于AutoGen的Magentic-One系統,由多個專業代理組成,協同工作以完成任務。協調者(Orchestrator)由大型語言模型驅動,負責與用戶進行協作規劃,決定何時需要用戶反饋,并將子任務分配給其他代理執行。網頁瀏覽代理(WebSurfer)具備瀏覽器控制能力,能夠執行點擊、輸入和滾動等操作,完成分配的網頁任務。代碼執行代理(Coder)配備Docker代碼執行容器,將結果反饋給協調者。文件處理代理(FileSurfer)利用Docker容器和文件轉換工具,能夠定位文件、轉換文件格式,并回答有關文件的問題。
- 交互流程:用戶通過輸入文本消息和附加圖像與XX進行交互。協調者根據用戶輸入生成自然語言的分步計劃,用戶可以在計劃上進行編輯。協調者會根據每個步驟決定由哪個代理或用戶執行,并發送請求等待響應。所有步驟完成后,協調者會生成最終答案展示給用戶。如果在執行過程中發現計劃不足,協調者會在獲得用戶許可后重新規劃新的執行計劃。
- 安全與控制:用戶可以設置XX可以訪問的網站列表,訪問列表外的網站需獲得用戶明確批準。用戶可以在XX執行任務的任意階段中斷任務,停止任何待執行的操作。XX控制的瀏覽器和代碼執行器都在Docker容器中運行,以避免對主機環境造成影響,防止登錄憑證泄露等安全風險。用戶還可以配置行動審批策略,決定在執行某些操作時是否需要用戶批準。
XX的項目地址
- 項目官網:https://www.microsoft.com/en-us/research/blog/magentic-ui
- GitHub倉庫:https://github.com/microsoft/magentic-ui
XX的應用場景
- 復雜任務的自動化:幫助用戶完成多步驟的Web任務,如比較產品價格、填寫在線表單或進行旅行預訂。
- 代碼編寫與執行輔助:生成代碼片段,安全地執行代碼,如用于數據分析或腳本編寫。
- 文件處理與信息檢索:轉換文件格式、搜索文件內容并回答相關問題。
- 研究與開發:為研究人員提供實驗平臺,探索人機協作的新方式。
- 教育與培訓:作為教學工具,幫助學習任務規劃和AI協作的相關知識。
常見問題
- XX適合哪些用戶使用?:XX適合任何希望提高Web任務效率的用戶,尤其是需要處理復雜任務的研究人員和開發者。
- 如何開始使用XX?:用戶可以訪問項目官網或GitHub倉庫下載并安裝XX,按照說明進行設置。
- XX是否安全?:XX設計了多重安全機制,確保用戶的操作安全,用戶可以自定義訪問網站和審批策略。
- XX支持哪些功能?:XX支持協作規劃、協作執行、安全機制和學習復用等多種功能,幫助用戶完成復雜的Web任務。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...