OpenAI 想了快 10 年的超級智能體終于來了!有驚喜,但比智譜晚還“翻車”系數(shù)高?
2025 年了,OpenAI 預(yù)熱多時要發(fā)的超級智能體又一次沒趕在前邊。
原標(biāo)題:OpenAI 想了快 10 年的超級智能體終于來了!有驚喜,但比智譜晚還“翻車”系數(shù)高?
文章來源:AI前線
內(nèi)容字?jǐn)?shù):5736字
2025年智能體競賽:OpenAI與智譜的角逐
2025年,OpenAI和智譜AI在智能體領(lǐng)域展開激烈競爭。OpenAI姍姍來遲地發(fā)布了Operator,一款能夠訪問網(wǎng)頁并執(zhí)行任務(wù)的智能體,而智譜AI則升級了其GLM-PC智能體,進(jìn)一步提升了代碼思維和邏輯推理能力。
1. OpenAI的Operator:好壞參半的初體驗
Operator作為OpenAI首款真正模擬人類操作網(wǎng)頁瀏覽器的智能體,能夠完成預(yù)訂、購物等復(fù)雜任務(wù)。它支持多任務(wù)同時運行,并允許用戶保存常用提示詞,方便重復(fù)性操作。然而,Operator也存在不足,例如在處理復(fù)雜界面時表現(xiàn)不佳,且在演示過程現(xiàn)過“翻車”情況。OpenAI官方也承認(rèn)Operator目前仍處于研究預(yù)覽階段,存在出錯的可能性。
2. 智譜AI的GLM-PC升級:代碼思維與深度思考
智譜AI的GLM-PC v1.1在去年發(fā)布的v1.0基礎(chǔ)上進(jìn)行了升級,加入了“深度思考”模式,增強了邏輯推理和代碼生成能力。它采用“左右腦”協(xié)作模式,左腦負(fù)責(zé)代碼生成和邏輯執(zhí)行,右腦專注于深度感知和交互體驗。GLM-PC能夠處理復(fù)雜邏輯任務(wù),并展現(xiàn)出更高的適應(yīng)能力和創(chuàng)造力,在實際應(yīng)用中表現(xiàn)出色,例如自動生成個性化微信群祝福語等。
3. 技術(shù)路線的差異與比較
Operator由CUA模型支持,結(jié)合了GPT-4o的視覺功能和強化學(xué)習(xí),能夠與圖形用戶界面交互。GLM-PC則采用CogAgent和CodeGeex模型,以代碼形式指揮工作流程。評測結(jié)果顯示,CogAgent在部分指標(biāo)上表現(xiàn)出色,但在某些方面仍遜于Claude-3.5-Sonnet和結(jié)合外接GUI grounding模型的GPT-4o。
4. 超級智能體的未來展望
OpenAI計劃公開Operator的CUA模型API,方便開發(fā)者構(gòu)建自己的智能體。智譜AI則計劃將GLM-PC與AIPC深度融合,并與PC廠商合作。業(yè)內(nèi)人士認(rèn)為未來十年是智能體的十年,智能體將像自動駕駛系統(tǒng)一樣輔助人類完成任務(wù),甚至可能管理公司運營。然而,多模態(tài)技術(shù)與大語言模型的整合以及處理超長任務(wù)周期等挑戰(zhàn)仍然存在。
5. QCon全球軟件開發(fā)大會推薦
文章最后推薦了2025年4月10-12日舉辦的QCon全球軟件開發(fā)大會,主題為“智能融合,引領(lǐng)未來”,旨在探討AI大模型技術(shù)對軟件開發(fā)領(lǐng)域的變革與機遇。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。