顛覆手機操控體驗:華為與哈工深聯(lián)合發(fā)布SPA-Bench評估新標(biāo)準(zhǔn)
華為諾亞方舟實驗室與哈工大(深圳)聯(lián)合提出的手機操控智能體評估框架。

原標(biāo)題:華為與哈工深等最新研究成果:SPA-Bench,手機操控智能體評估新標(biāo)準(zhǔn)
文章來源:AI科技評論
內(nèi)容字?jǐn)?shù):9414字
引言
隨著智能手機在日常生活中的普及,手機操控智能體的研究逐漸成為大模型領(lǐng)域的重要方向。然而,現(xiàn)有基準(zhǔn)測試存在多種局限性,亟需提升評估標(biāo)準(zhǔn)。華為諾亞方舟實驗室與哈爾濱工業(yè)大學(xué)(深圳)聯(lián)合提出的SPA-Bench(SmartPhone Agent Benchmark)為這一領(lǐng)域提供了新的評估框架。
1. 現(xiàn)有基準(zhǔn)測試的局限性
現(xiàn)有的手機智能體評估框架主要集中于簡單的系統(tǒng)應(yīng)用任務(wù),缺乏對復(fù)雜跨應(yīng)用操作和多語言場景的全面支持。此外,大多數(shù)基準(zhǔn)測試中涉及的智能體種類有限,研究者難以進行深入比較,降低了研究結(jié)論的全面性。現(xiàn)有驗證機制也缺乏靈活性,無法適應(yīng)UI更新的需求。
2. SPA-Bench的核心設(shè)計
SPA-Bench通過以下三方面解決現(xiàn)有基準(zhǔn)測試的痛點:
(1)任務(wù)設(shè)計:涵蓋340個任務(wù),包括單應(yīng)用和跨應(yīng)用任務(wù),任務(wù)復(fù)雜性分為,增加了對真實場景的覆蓋。
(2)智能體框架:支持多種智能體集成,具有高度靈活的模塊化設(shè)計,研究者可快速集成與比較不同模型。
(3)自動化流程:提供全面的任務(wù)驗證流程及多維度評估指標(biāo),提高評估的準(zhǔn)確性與效率。
3. 實驗結(jié)果與分析
實驗結(jié)果顯示,不同智能體在任務(wù)成功率上的表現(xiàn)差異顯著。M3A為表現(xiàn)最佳的智能體,其在單應(yīng)用任務(wù)中的成功率高于跨應(yīng)用任務(wù),同時英文任務(wù)的成功率也明顯優(yōu)于中文任務(wù)。此外,成功率與資源消耗之間存在權(quán)衡,高成功率往往伴隨著更高的計算資源和時間成本。
4. 未來研究方向
未來研究可集中在增強視覺感知、豐富數(shù)據(jù)集多樣性、改進記憶保留機制、強化錯誤處理、優(yōu)化任務(wù)終止判斷以及提升執(zhí)行效率與成本優(yōu)化等方面。這將進一步提升手機操控智能體的性能,推動其實際應(yīng)用。
總結(jié)
SPA-Bench為手機操控智能體研究提供了全面的評估工具,填補了現(xiàn)有基準(zhǔn)測試的空白,展望未來有望推動手機智能體技術(shù)的普及與發(fā)展。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

粵公網(wǎng)安備 44011502001135號