Open-AutoGLM – 智譜開源的手機端AI Agent框架
Open-AutoGLM:智譜開源的手機智能助理新篇章
在人工智能飛速發展的浪潮中,智譜科技再次引領創新,推出了其最新的開源力作——Open-AutoGLM。這不僅僅是一個框架,更是一個能夠讓手機操作“開口能懂,動手即成”的智能助理系統。Open-AutoGLM 基于強大的 AutoGLM 模型構建,其核心在于通過自然語言指令,實現手機端各項任務的自動化執行。它猶如一位身手敏捷的數字管家,能夠精準理解用戶意圖,并通過其獨特的 Phone Use 能力框架,將抽象的語言指令轉化為具體的手機操作,諸如精準的點擊、流暢的滑動、以及便捷的文本輸入等。無論是在外賣訂餐、社交互動,還是在客服場景中,Open-AutoGLM 都能游刃有余地代您完成復雜任務。
Open-AutoGLM 的獨特之處
Open-AutoGLM 的誕生,標志著手機智能化操作進入了一個新紀元。它巧妙地利用云手機技術,為用戶的數據安全和隱私保護筑起了一道堅實的屏障。智譜科技選擇開源 Open-AutoGLM,旨在匯聚行業力量,共同推動 AI Agent 技術的發展與成熟,同時堅守用戶隱私至上的原則,加速 Agent 技術的爆發式增長。目前,該框架已成功適配超過 50 款主流中文應用,并提供了一套完備的工具鏈和詳盡的文檔,旨在讓開發者們能夠輕松上手,并在此基礎上進行二次開發,釋放無限創意。
Open-AutoGLM 的核心能力概覽
意圖識別與執行的無縫銜接:用戶只需用日常的語言表達需求,AI 便能智能解析其意圖,并迅速轉化為實際的手機操作,實現從“說”到“做”的流暢轉化。
多模態界面洞察力:借助先進的視覺語言模型,Open-AutoGLM 能夠“看懂”手機屏幕上的內容,精準識別界面元素,從而執行相應的操作。
逼真的自動化操作:該框架支持模擬用戶在手機上的各種行為,包括但不限于點擊、滑動、文本輸入、長按以及雙擊等,操作體驗如同真人一般自然。
安全至上的交互設計:對于涉及用戶隱私或敏感信息的操作,Open-AutoGLM 會主動請求用戶確認,或允許用戶隨時接管,確保操作的絕對安全。
便捷的遠程操控與調試:通過 WiFi 或網絡連接,用戶可以實現對設備的遠程 ADB 調試,無需物理接觸即可完成設備操作。
廣泛的應用兼容性:Open-AutoGLM 已經支持市面上超過 50 款熱門中文應用,涵蓋了社交、電商、外賣、影音娛樂等多個領域。
云端部署的安全保障:所有操作均在云端虛擬設備中進行,極大地提升了用戶隱私和數據安全性。
輕松上手 Open-AutoGLM 的步驟
前期準備工作:
Python 環境搭建:請確保您的計算機上已安裝 Python(建議使用 3.10 或更高版本)。
ADB 工具安裝:下載并安裝 Android Debug Bridge (ADB) 工具,官方下載鏈接為 https://developer.android.com/studio/releases/platform-tools。安裝完成后,請務必將 ADB 的路徑添加到系統的環境變量中。
安卓設備配置:請確保您的安卓設備已開啟開發者模式和 USB 調試功能,并已成功連接至您的電腦。
下載與安裝流程:
獲取 Open-AutoGLM 代碼:
- 請訪問 Open-AutoGLM 的官方 GitHub 倉庫:https://github.com/zai-org/Open-AutoGLM。
- 在頁面右上角找到并點擊“Code”按鈕,然后選擇“Download ZIP”選項,下載項目壓縮包。
- 將下載的文件解壓至您方便管理的一個本地目錄,例如
C:\Open-AutoGLM或~/Open-AutoGLM。
安裝項目依賴:
- 打開您系統的命令行工具(Windows 用戶可使用命令提示符或 PowerShell,Mac/Linux 用戶使用終端)。
- 使用 `cd` 命令切換到您解壓后的項目目錄:
cd path/to/Open-AutoGLM- 執行以下命令來安裝所有必需的依賴庫:
pip install -r requirements.txt
啟動模型服務:
- 在命令行中輸入以下命令以啟動模型服務(此步驟為必要操作,無需深入理解代碼細節):
python3 -m vllm.entrypoints.openai.api_server --model zai-org/AutoGLM-Phone-9B --port 8000- 當您看到服務成功啟動的提示信息時,便可進行下一步操作。
執行您的任務:開啟一個新的命令行窗口,輸入以下命令來執行您的任務(只需根據您的需求替換“任務描述”部分即可):
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "任務描述"
Open-AutoGLM 的項目資源入口
GitHub 源代碼庫:https://github.com/zai-org/Open-AutoGLM
HuggingFace 模型庫:https://huggingface.co/zai-org/AutoGLM-Phone-9B
Open-AutoGLM 的廣闊應用前景
外賣點餐的便捷體驗:只需一句簡單的自然語言指令,例如“幫我點一份肯德基全家桶”,Open-AutoGLM 就能自動打開美團應用,搜索商品并完成下單流程。
社交媒體的智能互動:在微信、微博等社交平臺,您可以輕松指揮 AI 完成“點贊好友的最新動態”或“評論這條抖音視頻”等操作,AI 將精準識別目標并執行互動。
辦公效率的顯著提升:在 WPS 或 Microsoft Office 等辦公軟件中,一句“創建一個名為‘項目計劃’的文檔并寫入會議內容”的指令,AI 即可高效完成文檔的創建與內容編輯。
智能家居的無感控制:通過小米智能家居等應用,Open-AutoGLM 能夠精確識別并控制相應的智能設備,實現家居場景的自動化切換,讓生活更加便捷。
出行導航的無憂助手:在高德地圖或滴滴出行等應用中,AI 能根據您的需求實時規劃最佳路線,并自動完成叫車操作,讓您的出行更加省心高效。

粵公網安備 44011502001135號