<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        顛覆手機操控體驗:華為與哈工深推出SPA-Bench評估新標準!

        AIGC動態9個月前發布 AI科技評論
        513 0 0

        華為諾亞方舟實驗室與哈工大(深圳)聯合提出的手機操控智能體評估框架。

        顛覆手機操控體驗:華為與哈工深推出SPA-Bench評估新標準!

        原標題:華為與哈工深等最新研究成果:SPA-Bench,手機操控智能體評估新標準
        文章來源:AI科技評論
        內容字數:9414字

        手機操控智能體基準測試框架——SPA-Bench

        隨著智能手機在日常生活中的普及,手機操控智能體的研究逐漸成為重要課題。然而,現有的評估框架存在多方面的局限性。為此,華為諾亞方舟實驗室與哈爾濱工業大學(深圳)聯合提出了新的評估框架——SPA-Bench(SmartPhone Agent Benchmark)。該框架旨在重新定義手機操控智能體的研究與評估標準。

        1. 現有基準測試的局限性

        現有測試框架的任務范圍有限,主要集中在簡單的系統應用操作,難以涵蓋多語言及動態界面環境中的復雜任務。此外,基準測試中涉及的智能體種類較少,且驗證機制依賴固定規則,缺乏靈活性。這些問題導致評估的全面性和準確性受到影響。

        2. SPA-Bench的核心設計

        SPA-Bench通過以下三個方面解決了現有基準測試的痛點:

        • 任務設計:涵蓋340個真實場景任務,包括單應用和跨應用任務,難度分為,確保評估的性和全面性。
        • 智能體框架:支持多種智能體的集成與橫向對比,研究者可快速測試新模型,提高研究效率。
        • 自動化流程:提供全面自動化的驗證流程,結合多維度指標高效評估智能體表現。

        3. 實驗結果與分析

        實驗表明,不同智能體在任務成功率上存在顯著差異。M3A表現最佳,單應用任務成功率高于跨應用任務。中文任務的成功率普遍低于英文任務,反映出多模態大模型在處理復雜中文界面時的局限性。此外,任務完成效率與資源消耗的權衡也是智能體性能的重要考量。

        4. 未來研究方向

        未來的研究可以集中在增強視覺感知能力、豐富數據集多樣性、改進記憶保留機制、強化錯誤處理機制、優化任務終止判斷及提升執行效率等方面。這些方向將有助于提升手機操控智能體的性能和實用性。

        5. 總結

        SPA-Bench的提出為手機操控智能體的研究提供了強有力的工具,填補了現有基準測試的空白。通過全面的任務設計和高效的驗證流程,SPA-Bench將推動手機智能體技術的進一步發展與應用。


        聯系作者

        文章來源:AI科技評論
        作者微信:
        作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV无码乱码在线观看| 亚洲国产精品免费观看| 日韩中文无码有码免费视频| 亚洲成人福利在线| 95免费观看体验区视频| 亚洲AV日韩精品久久久久| 久久久久久免费一区二区三区 | 免费人成视频x8x8入口| 亚洲Av永久无码精品一区二区 | 亚洲区小说区图片区| www免费插插视频| 伊人亚洲综合青草青草久热| 亚洲精品国产日韩无码AV永久免费网| 亚洲&#228;v永久无码精品天堂久久 | 污污网站免费观看| 亚洲高清无在码在线无弹窗| aⅴ免费在线观看| 中文无码亚洲精品字幕| 日韩一级免费视频| ssswww日本免费网站片| 亚洲AV成人一区二区三区AV| 亚洲视频免费播放| 亚洲精品无码专区久久| 亚洲一区二区三区在线视频| a级毛片视频免费观看| 亚洲视频免费在线看| 成年人免费网站在线观看| 深夜免费在线视频| 亚洲卡一卡2卡三卡4卡无卡三| 97免费人妻无码视频| 老司机午夜免费视频| 欧美好看的免费电影在线观看| 亚洲欧洲av综合色无码| 亚洲日韩中文在线精品第一| 无码精品一区二区三区免费视频| 亚洲13又紧又嫩又水多| 97碰公开在线观看免费视频| 老子影院午夜伦不卡亚洲| 亚洲αv在线精品糸列| 精品四虎免费观看国产高清午夜| 亚洲ts人妖网站|