多個基準跑分超過Claude智能體
OpenAI智能體時代來臨?Operator即將上線!
OpenAI的智能體“Operator”即將問世的消息引發熱議。據爆料,該智能體已在Mac版ChatGPT桌面應用中隱藏了啟用/禁用選項,能夠接管用戶PC自主執行操作,例如編碼、訂餐、做攻略等。
1. Operator性能超越競爭對手
多位博主和“情報員”證實了Operator的內測消息,并曝光了其與其他競爭對手(如Anthropic的Claude)的性能對比。在多個基準測試中,Operator展現出優異的自動化任務執行能力,在部分測試中甚至超越了人類操作水平,例如在WebVoyager測試中取得了87%的好成績,略高于人類的85.3%。 但在其他測試,例如OSWorld和WebArena,Operator的表現雖然領先于Claude,但仍未達到人類水平的一半。
2. Operator與GPT-4o的區別
有網友將Operator與GPT-4o進行比較。有網友指出兩者區別在于:Operator是自主操作,而GPT-4o是輔助人類操作,教用戶做事。在安全性方面,GPT-4o在拒絕非法活動方面表現完美,而Operator則略遜一籌。
3. OpenAI對Agent的重點布局
早在去年,便有消息稱OpenAI計劃推出Operator。OpenAI CEO奧特曼也在新年目標中將Agent列為重點。近期OpenAI推出的ChatGPT新功能“Tasks”也被視為Agent的初級階段。這表明OpenAI正大力投入Agent領域。
4. Agent市場前景廣闊
市場研究公司預測,AI Agent市場規模到2030年將達到471億美元。 科技巨頭如英偉達也對Agent技術表示看好,認為未來公司IT部門將成為Agent人力資源部門,這預示著Agent技術在未來將得到廣泛應用,并帶動相關技術人才需求的增長。
5. 總結
Operator的即將上線標志著OpenAI在智能體領域邁出了重要一步。其優異的性能和廣闊的市場前景,預示著2025年將成為Agent技術爆發之年,企業和個人都將面臨新的機遇與挑戰。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破