
原標(biāo)題:OpenAI突發(fā)Operator!完全自主玩轉(zhuǎn)瀏覽器,奧特曼:Level 3時(shí)代開啟
文章來源:科技未來派
內(nèi)容字?jǐn)?shù):3437字
OpenAI發(fā)布首個(gè)智能體Operator:開啟AI代理時(shí)代
OpenAI近日正式發(fā)布了備受期待的AI智能體Operator,標(biāo)志著AI技術(shù)邁向新的里程碑。Operator并非簡(jiǎn)單的機(jī)器人,而是能夠完成各種任務(wù)的AI代理,它能夠自主瀏覽網(wǎng)頁、進(jìn)行在線購(gòu)物、預(yù)訂餐廳等,真正實(shí)現(xiàn)了AI從信息處理到行動(dòng)執(zhí)行的跨越。
Operator:解放雙手的AI助手
Operator 的核心功能在于其自主執(zhí)行任務(wù)的能力。用戶只需提供任務(wù)指令,Operator 就能自行完成所有步驟,例如根據(jù)購(gòu)物清單自主完成網(wǎng)購(gòu),或者根據(jù)用戶需求預(yù)訂餐廳。這與以往需要通過API或編程接口控制的AI代理截然不同,Operator 基于文本的思維鏈進(jìn)行推理,如同人類一樣理解網(wǎng)頁內(nèi)容并進(jìn)行操作。
在實(shí)際操作中,Operator展現(xiàn)了強(qiáng)大的自主學(xué)習(xí)和適應(yīng)能力。它可以識(shí)別網(wǎng)頁元素,點(diǎn)擊按鈕,填寫表單,甚至能夠應(yīng)對(duì)網(wǎng)站的登錄、支付等環(huán)節(jié)(需要用戶介入完成安全認(rèn)證)。更令人印象深刻的是,如果遇到訪問受限的情況,它能夠自行調(diào)整策略,例如在搜索中添加關(guān)鍵詞來繞過限制。用戶還可以自定義指令,例如設(shè)置訂機(jī)票時(shí)的首選航空公司,以獲得個(gè)性化體驗(yàn)。
技術(shù)底層:CUA模型的強(qiáng)大實(shí)力
Operator 的強(qiáng)大功能源于其底層使用的全新模型——Computer-Using-Agent (CUA)。CUA 結(jié)合了 GPT-4 的視覺能力和高級(jí)推理強(qiáng)化學(xué)習(xí),使其能夠與圖形用戶界面 (GUI) 進(jìn)行交互。這意味著 Operator 可以“看到”網(wǎng)頁內(nèi)容,并像人類一樣使用鼠標(biāo)和鍵盤進(jìn)行操作,無需任何自定義的 API 集成。
CUA 在 WebArena 和 WebVoyager 兩個(gè)基準(zhǔn)測(cè)試中均取得了領(lǐng)先成績(jī) (SOTA),證明了其在網(wǎng)頁自動(dòng)化領(lǐng)域的強(qiáng)大實(shí)力。更重要的是,CUA 具備自我糾錯(cuò)能力,能夠在遇到問題時(shí)自行嘗試解決,并在需要幫助時(shí)將控制權(quán)交還給用戶。
OpenAI進(jìn)入“代理”階段:Level 3的突破
OpenAI 此前將 AI 的發(fā)展劃分為五個(gè)階段,Operator 的發(fā)布標(biāo)志著 OpenAI 從 Level 1 (機(jī)器人) 邁入 Level 3 (AI 代理) 階段。這代表著 AI 從簡(jiǎn)單的對(duì)話交互,發(fā)展到能夠自主執(zhí)行任務(wù)的重大飛躍。OpenAI 預(yù)計(jì)未來將推出更多智能體,進(jìn)一步拓展 AI 代理的應(yīng)用領(lǐng)域。
未來展望:開源與普及
目前,Operator 僅面向 ChatGPT Pro 用戶開放,月費(fèi)高達(dá) 200 美元。雖然價(jià)格不菲,但其強(qiáng)大的功能和未來發(fā)展?jié)摿σ廊晃吮姸嚓P(guān)注。許多網(wǎng)友期待 Operator 能夠盡快開源,推動(dòng) AI 代理技術(shù)的普及和發(fā)展,從而讓更多人受益于這項(xiàng)突破性技術(shù)。
OpenAI 的這一舉動(dòng)無疑將加速 AI 代理技術(shù)的成熟和應(yīng)用,為各行各業(yè)帶來新的變革。讓我們拭目以待,看看未來 AI 代理將如何改變我們的生活和工作方式。
聯(lián)系作者
文章來源:科技未來派
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)