AgentCPM-GUI – 清華聯合面壁智能開源的端側GUI智能體模型
AgentCPM-GUI是什么
AgentCPM-GUI 是由清華大學與面壁智能團隊聯合開發的一款開源端側圖形用戶界面(GUI)代理,專為中文應用進行優化。基于 MiniCPM-V 模型(80 億參數),該系統能夠接收智能手機的屏幕截圖,并自主完成用戶指定的任務。通過對大規模中文安卓應用界面數據的預訓練,AgentCPM-GUI 顯著增強了對 GUI 元素的理解和定位能力。在中文 Grounding Benchmark 和 Agent Benchmark 上,該產品均達到了最先進的性能標準,成為首個針對中文應用進行精細優化的開源 GUI 代理。
AgentCPM-GUI的主要功能
- 中文應用操作:能夠理解并操作多種中文應用程序,例如高德地圖、大眾點評、嗶哩嗶哩和小紅書等。
- 任務自動化執行:接受用戶的指令后,自動拆分任務步驟,并在相應應用中精確執行,例如下單、播放視頻等。
- 高質量 GUI 定位:能夠準確定位屏幕上的按鈕、輸入框、標簽等各種 GUI 元素。
- OCR 定位與識別:能夠識別屏幕中的文本信息,并根據文本內容執行相應的操作。
AgentCPM-GUI的技術原理
- 預訓練:基于大規模中文安卓應用界面的數據進行預訓練,覆蓋了常見的按鈕、輸入框、標簽和圖標等通用 GUI 控件。通過高質量的 GUI Grounding 預訓練,提升了模型對視覺界面元素的理解與定位能力,同時具備 OCR Grounding 能力,能夠準確定位和識別屏幕中的文本信息。
- 強化微調(RFT):設計了動作格式獎勵、動作類型獎勵和動作參數獎勵三個維度的獎勵函數,以引導模型自主生成高質量的思維鏈過程。在獎勵函數的引導下,模型不斷優化策略,提升任務執行的成功率。
- 緊湊動作空間設計:采用緊湊的 JSON 格式,將動作平均長度壓縮至 9.7 個 token,減少推理過程中的計算和內存需求。這種設計使模型更適合在移動設備上部署,加快端側推理速度,并緩解隱私安全問題。
AgentCPM-GUI的項目地址
- GitHub倉庫:https://github.com/OpenBMB/AgentCPM-GUI
- HuggingFace模型庫:https://huggingface.co/openbmb/AgentCPM-GUI
AgentCPM-GUI的應用場景
- 智能助手:幫助用戶通過語音或文字指令完成各種應用操作,如點外賣、播放音樂等。
- 自動化測試:用于自動化測試中文應用的功能和界面,從而提高測試效率。
- 老年關懷:簡化老年人使用智能手機的操作,例如視頻通話、查看天氣等。
- 視障人士輔助:結合語音指令和屏幕閱讀器,幫助視障人士更便捷地使用應用。
- 企業應用自動化:自動執行企業中的重復性任務,如數據錄入和報表生成,從而提升工作效率。
常見問題
- 如何安裝AgentCPM-GUI?:用戶可以通過訪問GitHub倉庫獲取詳細的安裝指南。
- AgentCPM-GUI支持哪些設備?:該工具主要支持運行安卓系統的智能手機。
- 如何提高任務執行的準確性?:確保提供清晰的指令,并使用高質量的屏幕截圖,以便系統更好地理解用戶需求。
- 使用AgentCPM-GUI是否安全?:AgentCPM-GUI設計時考慮了用戶隱私,數據處理過程遵循嚴格的隱私保護標準。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...