基于視覺的移動設備任務自動化框架VisionTasker
原標題:西安交大最新成果!端側智能體VisionTasker:讓AI自動完成手機中各種任務
文章來源:智猩猩GenAI
內容字數:7983字
2024中國生成式AI大會(上海站)預告
2024中國生成式AI大會將于12月5-6日在上海舉辦,由智猩猩共同主辦。此次大會將吸引30多位知名嘉賓參與演講,包括北大(臨港)大模型對齊中心的徐驊教授、騰訊優圖實驗室的吳賢研究員等。大會涵蓋了大模型峰會、AI基礎設施峰會以及多場技術研討會,是AI領域的重要盛會。
引言
隨著人工智能技術的快速發展,移動任務自動化逐漸成為研究熱點。西安交通大學智能網絡與網絡安全教育部重點實驗室(MOE KLINNS Lab)提出的VisionTasker框架,結合視覺UI理解和大語言模型(LLM)任務規劃,旨在提升移動設備上的任務自動化能力。該研究已被國際頂會UIST 2024收錄。
VisionTasker框架介紹
VisionTasker是一個兩階段開源框架,首先通過視覺UI理解將界面轉換為自然語言,消除了對視圖層次結構的依賴;其次,利用LLM進行逐步任務規劃,提高執行準確性。其在多個公開數據集上的表現超越了傳統方法,尤其在處理人類不熟悉的任務時顯示出優越性。
實驗與結果
研究團隊進行了廣泛的實驗,比較了VisionTasker與其他UI理解方法的性能。結果表明,VisionTasker在多項指標上均表現出顯著優勢,特別是在跨語言應用及復雜任務自動化方面。通過與人類評估者的比較,VisionTasker在147個真實世界任務中展現了與人類相當的完成率,甚至在某些任務中超越了人類表現。
結論
VisionTasker克服了現階段移動任務自動化對視圖層級結構的依賴,展示了其在用戶界面表示及任務執行方面的創新性和實用性。通過集成演示編程(PBD)機制,VisionTasker在任務自動化領域展現出廣闊的前景,為未來的智能自動化執行任務提供了新的思路。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。