“顛覆手機(jī)操作的未來:西安交大推出VisionTasker,AI助力一鍵完成多任務(wù)!”
基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化框架VisionTasker

原標(biāo)題:西安交大最新成果!端側(cè)智能體VisionTasker:讓AI自動(dòng)完成手機(jī)中各種任務(wù)
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):7983字
2024中國生成式AI大會(huì)(上海站)預(yù)告
2024中國生成式AI大會(huì)將于12月5-6日在上海舉辦,由智猩猩共同主辦。此次大會(huì)將吸引30多位知名嘉賓參與演講,包括北大(臨港)大模型對齊中心的徐驊教授、騰訊優(yōu)圖實(shí)驗(yàn)室的吳賢研究員等。大會(huì)涵蓋了大模型峰會(huì)、AI基礎(chǔ)設(shè)施峰會(huì)以及多場技術(shù)研討會(huì),是AI領(lǐng)域的重要盛會(huì)。
引言
隨著人工智能技術(shù)的快速發(fā)展,移動(dòng)任務(wù)自動(dòng)化逐漸成為研究熱點(diǎn)。西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室(MOE KLINNS Lab)提出的VisionTasker框架,結(jié)合視覺UI理解和大語言模型(LLM)任務(wù)規(guī)劃,旨在提升移動(dòng)設(shè)備上的任務(wù)自動(dòng)化能力。該研究已被國際頂會(huì)UIST 2024收錄。
VisionTasker框架介紹
VisionTasker是一個(gè)兩階段開源框架,首先通過視覺UI理解將界面轉(zhuǎn)換為自然語言,消除了對視圖層次結(jié)構(gòu)的依賴;其次,利用LLM進(jìn)行逐步任務(wù)規(guī)劃,提高執(zhí)行準(zhǔn)確性。其在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)超越了傳統(tǒng)方法,尤其在處理人類不熟悉的任務(wù)時(shí)顯示出優(yōu)越性。
實(shí)驗(yàn)與結(jié)果
研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn),比較了VisionTasker與其他UI理解方法的性能。結(jié)果表明,VisionTasker在多項(xiàng)指標(biāo)上均表現(xiàn)出顯著優(yōu)勢,特別是在跨語言應(yīng)用及復(fù)雜任務(wù)自動(dòng)化方面。通過與人類評估者的比較,VisionTasker在147個(gè)真實(shí)世界任務(wù)中展現(xiàn)了與人類相當(dāng)?shù)耐瓿陕剩踔猎谀承┤蝿?wù)中超越了人類表現(xiàn)。
結(jié)論
VisionTasker克服了現(xiàn)階段移動(dòng)任務(wù)自動(dòng)化對視圖層級結(jié)構(gòu)的依賴,展示了其在用戶界面表示及任務(wù)執(zhí)行方面的創(chuàng)新性和實(shí)用性。通過集成演示編程(PBD)機(jī)制,VisionTasker在任務(wù)自動(dòng)化領(lǐng)域展現(xiàn)出廣闊的前景,為未來的智能自動(dòng)化執(zhí)行任務(wù)提供了新的思路。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。

粵公網(wǎng)安備 44011502001135號