ScreenAgent是一款由吉林大學(xué)人工智能學(xué)院的研究團(tuán)隊(duì)研發(fā)的計(jì)算機(jī)控制智能體,基于視覺(jué)語(yǔ)言模型(VLM)構(gòu)建,能夠與真實(shí)計(jì)算機(jī)屏幕進(jìn)行智能交互。它的核心優(yōu)勢(shì)在于通過(guò)分析屏幕截圖,生成相應(yīng)的鼠標(biāo)和鍵盤(pán)操作,從而實(shí)現(xiàn)對(duì)圖形用戶界面的有效操控,完成多步驟的復(fù)雜任務(wù)。
ScreenAgent是什么
ScreenAgent是吉林大學(xué)人工智能學(xué)院研究團(tuán)隊(duì)開(kāi)發(fā)的一款智能計(jì)算機(jī)控制代理,利用視覺(jué)語(yǔ)言模型(VLM),使其能夠與計(jì)算機(jī)屏幕進(jìn)行實(shí)時(shí)交互。研究者們?cè)O(shè)計(jì)了一個(gè)“計(jì)劃-執(zhí)行-反思”的工作流程,以指導(dǎo)智能體與計(jì)算機(jī)屏幕的持續(xù)互動(dòng)。它的主要功能是根據(jù)屏幕截圖生成相應(yīng)的鼠標(biāo)和鍵盤(pán)動(dòng)作,以便操控圖形用戶界面(GUI),從而完成復(fù)雜的多步驟任務(wù)。

ScreenAgent的官網(wǎng)入口
- 官方GitHub代碼庫(kù):https://github.com/niuzaisheng/ScreenAgent
- Arxiv研究論文入口:https://arxiv.org/abs/2402.07945
ScreenAgent的運(yùn)行流程

- 屏幕觀察:ScreenAgent能夠?qū)崟r(shí)觀察和理解計(jì)算機(jī)屏幕上的內(nèi)容,通過(guò)VNC協(xié)議獲取桌面操作系統(tǒng)的實(shí)時(shí)圖像。
- 動(dòng)作生成:在分析完整的屏幕截圖后,ScreenAgent能生成相應(yīng)的鼠標(biāo)和鍵盤(pán)操作。這些操作以JSON格式輸出,包括移動(dòng)鼠標(biāo)、點(diǎn)擊、雙擊、滾動(dòng)、拖動(dòng)及鍵盤(pán)輸入等。
- 任務(wù)規(guī)劃:根據(jù)用戶的任務(wù)提示,ScreenAgent能夠?qū)?fù)雜任務(wù)分解成多個(gè)子任務(wù),并為每個(gè)子任務(wù)制定相應(yīng)的動(dòng)作序列,這需要對(duì)任務(wù)的理解和策略制定。
- 執(zhí)行動(dòng)作:在規(guī)劃完成后,ScreenAgent會(huì)執(zhí)行已規(guī)劃的子任務(wù),通過(guò)發(fā)送鼠標(biāo)和鍵盤(pán)命令,實(shí)現(xiàn)用戶的目標(biāo)。
- 反思評(píng)估:在執(zhí)行動(dòng)作后,ScreenAgent會(huì)評(píng)估結(jié)果,決定是否重試當(dāng)前子任務(wù)、繼續(xù)下一個(gè)子任務(wù)或調(diào)整整體計(jì)劃。
ScreenAgent的技術(shù)原理
- 視覺(jué)語(yǔ)言模型(VLM):
- VLM是一種綜合視覺(jué)和語(yǔ)言處理能力的模型,能夠理解圖像內(nèi)容并生成相應(yīng)的自然語(yǔ)言描述。
- 在ScreenAgent中,VLM用于解析屏幕截圖,理解用戶的任務(wù)提示,并規(guī)劃一系列動(dòng)作以完成任務(wù)。
- 強(qiáng)化學(xué)習(xí)環(huán)境:
- ScreenAgent通過(guò)VNC協(xié)議與真實(shí)計(jì)算機(jī)屏幕互動(dòng),創(chuàng)建了一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境。在此環(huán)境中,智能體可以觀察屏幕狀態(tài)(狀態(tài)空間)、執(zhí)行動(dòng)作(動(dòng)作空間),并根據(jù)結(jié)果獲得獎(jiǎng)勵(lì)(獎(jiǎng)勵(lì)函數(shù))。
- 控制流程:
- 計(jì)劃(Planning):智能體根據(jù)當(dāng)前屏幕截圖和任務(wù)提示,分解任務(wù)并規(guī)劃一系列子任務(wù)和相應(yīng)的動(dòng)作序列。
- 執(zhí)行(Acting):智能體根據(jù)規(guī)劃階段的輸出,通過(guò)發(fā)送鼠標(biāo)和鍵盤(pán)命令來(lái)操控計(jì)算機(jī)界面。
- 反思(Reflecting):智能體評(píng)估執(zhí)行動(dòng)作后的結(jié)果,決定是否需要重試、繼續(xù)或調(diào)整計(jì)劃。
- 數(shù)據(jù)集和評(píng)估:
- ScreenAgent數(shù)據(jù)集包含了完成各種日常計(jì)算機(jī)任務(wù)時(shí)的屏幕截圖和動(dòng)作序列,用于模型的訓(xùn)練和評(píng)估。
- CC-Score(Vision Language Computer Control Score)是一個(gè)細(xì)粒度的評(píng)估指標(biāo),用于衡量智能體在計(jì)算機(jī)控制任務(wù)中的表現(xiàn)。
- 模型訓(xùn)練:
- ScreenAgent模型通過(guò)在ScreenAgent數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)如何有效地規(guī)劃、執(zhí)行和反思,以完成復(fù)雜的計(jì)算機(jī)控制任務(wù)。訓(xùn)練過(guò)程中采用多種技術(shù),包括監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及人類反饋循環(huán)(RLHF)等。
應(yīng)用場(chǎng)景
ScreenAgent可以廣泛應(yīng)用于自動(dòng)化辦公、軟件測(cè)試、游戲操作等領(lǐng)域,幫助用戶高效完成復(fù)雜的計(jì)算機(jī)任務(wù),提升工作效率。
常見(jiàn)問(wèn)題
- ScreenAgent的主要優(yōu)勢(shì)是什么?
ScreenAgent結(jié)合了視覺(jué)理解與自動(dòng)化操作能力,能夠高效地處理復(fù)雜的計(jì)算機(jī)任務(wù),減少人工干預(yù)。 - 如何開(kāi)始使用ScreenAgent?
用戶可以通過(guò)訪問(wèn)其[GitHub代碼庫(kù)](https://github.com/niuzaisheng/ScreenAgent)獲取相關(guān)代碼和使用說(shuō)明。 - ScreenAgent支持哪些操作系統(tǒng)?
ScreenAgent通過(guò)VNC協(xié)議與計(jì)算機(jī)屏幕交互,通常支持主流操作系統(tǒng),如Windows和Linux。
# AI工具# AI項(xiàng)目和框架# 多用戶協(xié)作# 實(shí)時(shí)內(nèi)容更新# 數(shù)據(jù)分析報(bào)告# 智能屏幕管理# 遠(yuǎn)程控制功能
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)