原標題:OpenAI突發Operator!完全自主玩轉瀏覽器,奧特曼:Level 3時代開啟
文章來源:科技未來派
內容字數:3437字
OpenAI發布首個智能體Operator:開啟AI代理時代
OpenAI近日正式發布了備受期待的AI智能體Operator,標志著AI技術邁向新的里程碑。Operator并非簡單的機器人,而是能夠完成各種任務的AI代理,它能夠自主瀏覽網頁、進行在線購物、預訂餐廳等,真正實現了AI從信息處理到行動執行的跨越。
Operator:解放雙手的AI助手
Operator 的核心功能在于其自主執行任務的能力。用戶只需提供任務指令,Operator 就能自行完成所有步驟,例如根據購物清單自主完成網購,或者根據用戶需求預訂餐廳。這與以往需要通過API或編程接口控制的AI代理截然不同,Operator 基于文本的思維鏈進行推理,如同人類一樣理解網頁內容并進行操作。
在實際操作中,Operator展現了強大的自主學習和適應能力。它可以識別網頁元素,點擊按鈕,填寫表單,甚至能夠應對網站的登錄、支付等環節(需要用戶介入完成安全認證)。更令人印象深刻的是,如果遇到訪問受限的情況,它能夠自行調整策略,例如在搜索中添加關鍵詞來繞過限制。用戶還可以自定義指令,例如設置訂機票時的首選航空公司,以獲得個性化體驗。
技術底層:CUA模型的強大實力
Operator 的強大功能源于其底層使用的全新模型——Computer-Using-Agent (CUA)。CUA 結合了 GPT-4 的視覺能力和高級推理強化學習,使其能夠與圖形用戶界面 (GUI) 進行交互。這意味著 Operator 可以“看到”網頁內容,并像人類一樣使用鼠標和鍵盤進行操作,無需任何自定義的 API 集成。
CUA 在 WebArena 和 WebVoyager 兩個基準測試中均取得了領先成績 (SOTA),證明了其在網頁自動化領域的強大實力。更重要的是,CUA 具備自我糾錯能力,能夠在遇到問題時自行嘗試解決,并在需要幫助時將控制權交還給用戶。
OpenAI進入“代理”階段:Level 3的突破
OpenAI 此前將 AI 的發展劃分為五個階段,Operator 的發布標志著 OpenAI 從 Level 1 (機器人) 邁入 Level 3 (AI 代理) 階段。這代表著 AI 從簡單的對話交互,發展到能夠自主執行任務的重大飛躍。OpenAI 預計未來將推出更多智能體,進一步拓展 AI 代理的應用領域。
未來展望:開源與普及
目前,Operator 僅面向 ChatGPT Pro 用戶開放,月費高達 200 美元。雖然價格不菲,但其強大的功能和未來發展潛力依然吸引了眾多關注。許多網友期待 Operator 能夠盡快開源,推動 AI 代理技術的普及和發展,從而讓更多人受益于這項突破性技術。
OpenAI 的這一舉動無疑將加速 AI 代理技術的成熟和應用,為各行各業帶來新的變革。讓我們拭目以待,看看未來 AI 代理將如何改變我們的生活和工作方式。
聯系作者
文章來源:科技未來派
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破