国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

“顛覆手機(jī)操作的未來：西安交大推出VisionTasker，AI助力一鍵完成多任務(wù)！”

AIGC動(dòng)態(tài)11個(gè)月前發(fā)布智猩猩GenAI

基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化框架VisionTasker

原標(biāo)題：西安交大最新成果！端側(cè)智能體VisionTasker：讓AI自動(dòng)完成手機(jī)中各種任務(wù)
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：7983字

2024中國生成式AI大會(huì)（上海站）預(yù)告

2024中國生成式AI大會(huì)將于12月5-6日在上海舉辦，由智猩猩共同主辦。此次大會(huì)將吸引30多位知名嘉賓參與演講，包括北大（臨港）大模型對齊中心的徐驊教授、騰訊優(yōu)圖實(shí)驗(yàn)室的吳賢研究員等。大會(huì)涵蓋了大模型峰會(huì)、AI基礎(chǔ)設(shè)施峰會(huì)以及多場技術(shù)研討會(huì)，是AI領(lǐng)域的重要盛會(huì)。

引言

隨著人工智能技術(shù)的快速發(fā)展，移動(dòng)任務(wù)自動(dòng)化逐漸成為研究熱點(diǎn)。西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室（MOE KLINNS Lab）提出的VisionTasker框架，結(jié)合視覺UI理解和大語言模型（LLM）任務(wù)規(guī)劃，旨在提升移動(dòng)設(shè)備上的任務(wù)自動(dòng)化能力。該研究已被國際頂會(huì)UIST 2024收錄。

VisionTasker框架介紹

VisionTasker是一個(gè)兩階段開源框架，首先通過視覺UI理解將界面轉(zhuǎn)換為自然語言，消除了對視圖層次結(jié)構(gòu)的依賴；其次，利用LLM進(jìn)行逐步任務(wù)規(guī)劃，提高執(zhí)行準(zhǔn)確性。其在多個(gè)公開數(shù)據(jù)集上的表現(xiàn)超越了傳統(tǒng)方法，尤其在處理人類不熟悉的任務(wù)時(shí)顯示出優(yōu)越性。

實(shí)驗(yàn)與結(jié)果

研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)，比較了VisionTasker與其他UI理解方法的性能。結(jié)果表明，VisionTasker在多項(xiàng)指標(biāo)上均表現(xiàn)出顯著優(yōu)勢，特別是在跨語言應(yīng)用及復(fù)雜任務(wù)自動(dòng)化方面。通過與人類評估者的比較，VisionTasker在147個(gè)真實(shí)世界任務(wù)中展現(xiàn)了與人類相當(dāng)?shù)耐瓿陕剩踔猎谀承┤蝿?wù)中超越了人類表現(xiàn)。

結(jié)論

VisionTasker克服了現(xiàn)階段移動(dòng)任務(wù)自動(dòng)化對視圖層級結(jié)構(gòu)的依賴，展示了其在用戶界面表示及任務(wù)執(zhí)行方面的創(chuàng)新性和實(shí)用性。通過集成演示編程（PBD）機(jī)制，VisionTasker在任務(wù)自動(dòng)化領(lǐng)域展現(xiàn)出廣闊的前景，為未來的智能自動(dòng)化執(zhí)行任務(wù)提供了新的思路。