原標題:智譜Agent搶跑OpenAI,GLM-PC一句話搞定一切!網友:有AGI那味了
文章來源:新智元
內容字數:8675字
智譜GLM-PC:引領智能體的中國力量
本文總結了新智元報道中關于智譜公司發布的全球首個面向公眾、回車即用的電腦智能體GLM-PC v1.1 的關鍵信息。GLM-PC,昵稱“牛牛”,具備強大的工具使用能力,能夠像人類一樣觀察和操作計算機,自主完成各種復雜任務,標志著中國在人工智能智能體領域取得了顯著突破。
1. GLM-PC的核心能力與創新
GLM-PC v1.1 擁有“深度思考”模式和專門用于邏輯推理和代碼生成的模塊。它能夠將復雜任務分解成多個步驟,并通過“左腦”(邏輯推理、代碼執行)和“右腦”(圖像感知、交互)的協作模式,實現高效精準地完成任務。例如,它可以自動識別圖片信息生成朋友圈文案并發布,自動完成網購等操作。其Window和Mac客戶端已同步上線。
2. 智譜在智能體領域的領先地位
智譜公司在AI智能體領域的布局超前,其AGI路線圖將AI能力劃分五個等級(L1-L5),GLM-PC的發布代表著智譜在L3級(使用工具能力)取得了重大進展。此前,智譜已推出手機智能體AutoGLM,覆蓋了移動設備和桌面端,實現了工具使用能力的深度突破。這使得智譜在智能體領域展現出令人矚目的領先優勢,甚至領先于OpenAI。
3. 多模態感知與全GUI空間交互
GLM-PC的核心技術在于其基于視覺語言模型(VLM)的圖形界面智能體(GUI Agent)。通過多模態感知,GLM-PC能夠理解和操作各種圖形界面,突破了傳統語言模型的限制,實現了對復雜系統工具的掌控。這標志著人機交互范式的根本性重塑,為未來AI的自主學習和創新奠定了基礎。
4. “左腦”與“右腦”的協同工作機制
GLM-PC的“左腦”負責邏輯推理、代碼生成和任務執行規劃,能夠將復雜任務分解成可執行的步驟,并進行循環執行、動態反思和糾錯優化。“右腦”則負責圖像理解、用戶行為認知和多模態信息融合,實現與GUI界面的交互。這種“左腦”與“右腦”的協同工作機制,賦予了GLM-PC強大的泛化能力和適應性。
5. 底層模型與開源貢獻
GLM-PC基于智譜自主研發的多模態Agent模型CogAgent和代碼模型CodeGeex。CogAgent-9B-20241220版本已開源,并在多項GUI agent基準測試中取得了領先的結果。 智譜正與聯想、華碩等PC廠商合作,推動GLM-PC與AIPC的融合,實現更廣泛的應用。
6. 未來展望
GLM-PC的出現,預示著未來個人電腦將能夠完全理解用戶意圖,自動優化工作流程,并提供7×24小時的智能支持。智譜正引領著這場智能,將未來變成現實。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。