AgentCPM-GUI – 清華聯(lián)合面壁智能開源的端側(cè)GUI智能體模型
AgentCPM-GUI是什么
AgentCPM-GUI 是由清華大學(xué)與面壁智能團隊聯(lián)合開發(fā)的一款開源端側(cè)圖形用戶界面(GUI)代理,專為中文應(yīng)用進行優(yōu)化。基于 MiniCPM-V 模型(80 億參數(shù)),該系統(tǒng)能夠接收智能手機的屏幕截圖,并自主完成用戶指定的任務(wù)。通過對大規(guī)模中文安卓應(yīng)用界面數(shù)據(jù)的預(yù)訓(xùn)練,AgentCPM-GUI 顯著增強了對 GUI 元素的理解和定位能力。在中文 Grounding Benchmark 和 Agent Benchmark 上,該產(chǎn)品均達到了最先進的性能標(biāo)準(zhǔn),成為首個針對中文應(yīng)用進行精細優(yōu)化的開源 GUI 代理。
AgentCPM-GUI的主要功能
- 中文應(yīng)用操作:能夠理解并操作多種中文應(yīng)用程序,例如高德地圖、大眾點評、嗶哩嗶哩和小紅書等。
- 任務(wù)自動化執(zhí)行:接受用戶的指令后,自動拆分任務(wù)步驟,并在相應(yīng)應(yīng)用中精確執(zhí)行,例如下單、播放視頻等。
- 高質(zhì)量 GUI 定位:能夠準(zhǔn)確定位屏幕上的按鈕、輸入框、標(biāo)簽等各種 GUI 元素。
- OCR 定位與識別:能夠識別屏幕中的文本信息,并根據(jù)文本內(nèi)容執(zhí)行相應(yīng)的操作。
AgentCPM-GUI的技術(shù)原理
- 預(yù)訓(xùn)練:基于大規(guī)模中文安卓應(yīng)用界面的數(shù)據(jù)進行預(yù)訓(xùn)練,覆蓋了常見的按鈕、輸入框、標(biāo)簽和圖標(biāo)等通用 GUI 控件。通過高質(zhì)量的 GUI Grounding 預(yù)訓(xùn)練,提升了模型對視覺界面元素的理解與定位能力,同時具備 OCR Grounding 能力,能夠準(zhǔn)確定位和識別屏幕中的文本信息。
- 強化微調(diào)(RFT):設(shè)計了動作格式獎勵、動作類型獎勵和動作參數(shù)獎勵三個維度的獎勵函數(shù),以引導(dǎo)模型自主生成高質(zhì)量的思維鏈過程。在獎勵函數(shù)的引導(dǎo)下,模型不斷優(yōu)化策略,提升任務(wù)執(zhí)行的成功率。
- 緊湊動作空間設(shè)計:采用緊湊的 JSON 格式,將動作平均長度壓縮至 9.7 個 token,減少推理過程中的計算和內(nèi)存需求。這種設(shè)計使模型更適合在移動設(shè)備上部署,加快端側(cè)推理速度,并緩解隱私安全問題。
AgentCPM-GUI的項目地址
- GitHub倉庫:https://github.com/OpenBMB/AgentCPM-GUI
- HuggingFace模型庫:https://huggingface.co/openbmb/AgentCPM-GUI
AgentCPM-GUI的應(yīng)用場景
- 智能助手:幫助用戶通過語音或文字指令完成各種應(yīng)用操作,如點外賣、播放音樂等。
- 自動化測試:用于自動化測試中文應(yīng)用的功能和界面,從而提高測試效率。
- 老年關(guān)懷:簡化老年人使用智能手機的操作,例如視頻通話、查看天氣等。
- 視障人士輔助:結(jié)合語音指令和屏幕閱讀器,幫助視障人士更便捷地使用應(yīng)用。
- 企業(yè)應(yīng)用自動化:自動執(zhí)行企業(yè)中的重復(fù)性任務(wù),如數(shù)據(jù)錄入和報表生成,從而提升工作效率。
常見問題
- 如何安裝AgentCPM-GUI?:用戶可以通過訪問GitHub倉庫獲取詳細的安裝指南。
- AgentCPM-GUI支持哪些設(shè)備?:該工具主要支持運行安卓系統(tǒng)的智能手機。
- 如何提高任務(wù)執(zhí)行的準(zhǔn)確性?:確保提供清晰的指令,并使用高質(zhì)量的屏幕截圖,以便系統(tǒng)更好地理解用戶需求。
- 使用AgentCPM-GUI是否安全?:AgentCPM-GUI設(shè)計時考慮了用戶隱私,數(shù)據(jù)處理過程遵循嚴格的隱私保護標(biāo)準(zhǔn)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...