国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

ScreenAgent

AI工具1年前 (2024)發(fā)布 AI工具集

ScreenAgent是一款由吉林大學(xué)人工智能學(xué)院的研究團(tuán)隊(duì)研發(fā)的計(jì)算機(jī)控制智能體，基于視覺(jué)語(yǔ)言模型（VLM）構(gòu)建，能夠與真實(shí)計(jì)算機(jī)屏幕進(jìn)行智能交互。它的核心優(yōu)勢(shì)在于通過(guò)分析屏幕截圖，生成相應(yīng)的鼠標(biāo)和鍵盤(pán)操作，從而實(shí)現(xiàn)對(duì)圖形用戶界面的有效操控，完成多步驟的復(fù)雜任務(wù)。

ScreenAgent是什么

ScreenAgent是吉林大學(xué)人工智能學(xué)院研究團(tuán)隊(duì)開(kāi)發(fā)的一款智能計(jì)算機(jī)控制代理，利用視覺(jué)語(yǔ)言模型（VLM），使其能夠與計(jì)算機(jī)屏幕進(jìn)行實(shí)時(shí)交互。研究者們?cè)O(shè)計(jì)了一個(gè)“計(jì)劃-執(zhí)行-反思”的工作流程，以指導(dǎo)智能體與計(jì)算機(jī)屏幕的持續(xù)互動(dòng)。它的主要功能是根據(jù)屏幕截圖生成相應(yīng)的鼠標(biāo)和鍵盤(pán)動(dòng)作，以便操控圖形用戶界面（GUI），從而完成復(fù)雜的多步驟任務(wù)。

ScreenAgent

ScreenAgent的官網(wǎng)入口

官方GitHub代碼庫(kù)：https://github.com/niuzaisheng/ScreenAgent
Arxiv研究論文入口：https://arxiv.org/abs/2402.07945

ScreenAgent的運(yùn)行流程

ScreenAgent

屏幕觀察：ScreenAgent能夠?qū)崟r(shí)觀察和理解計(jì)算機(jī)屏幕上的內(nèi)容，通過(guò)VNC協(xié)議獲取桌面操作系統(tǒng)的實(shí)時(shí)圖像。
動(dòng)作生成：在分析完整的屏幕截圖后，ScreenAgent能生成相應(yīng)的鼠標(biāo)和鍵盤(pán)操作。這些操作以JSON格式輸出，包括移動(dòng)鼠標(biāo)、點(diǎn)擊、雙擊、滾動(dòng)、拖動(dòng)及鍵盤(pán)輸入等。
任務(wù)規(guī)劃：根據(jù)用戶的任務(wù)提示，ScreenAgent能夠?qū)?fù)雜任務(wù)分解成多個(gè)子任務(wù)，并為每個(gè)子任務(wù)制定相應(yīng)的動(dòng)作序列，這需要對(duì)任務(wù)的理解和策略制定。
執(zhí)行動(dòng)作：在規(guī)劃完成后，ScreenAgent會(huì)執(zhí)行已規(guī)劃的子任務(wù)，通過(guò)發(fā)送鼠標(biāo)和鍵盤(pán)命令，實(shí)現(xiàn)用戶的目標(biāo)。
反思評(píng)估：在執(zhí)行動(dòng)作后，ScreenAgent會(huì)評(píng)估結(jié)果，決定是否重試當(dāng)前子任務(wù)、繼續(xù)下一個(gè)子任務(wù)或調(diào)整整體計(jì)劃。

ScreenAgent的技術(shù)原理

視覺(jué)語(yǔ)言模型（VLM）：
- VLM是一種綜合視覺(jué)和語(yǔ)言處理能力的模型，能夠理解圖像內(nèi)容并生成相應(yīng)的自然語(yǔ)言描述。
- 在ScreenAgent中，VLM用于解析屏幕截圖，理解用戶的任務(wù)提示，并規(guī)劃一系列動(dòng)作以完成任務(wù)。
強(qiáng)化學(xué)習(xí)環(huán)境：
- ScreenAgent通過(guò)VNC協(xié)議與真實(shí)計(jì)算機(jī)屏幕互動(dòng)，創(chuàng)建了一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境。在此環(huán)境中，智能體可以觀察屏幕狀態(tài)（狀態(tài)空間）、執(zhí)行動(dòng)作（動(dòng)作空間），并根據(jù)結(jié)果獲得獎(jiǎng)勵(lì)（獎(jiǎng)勵(lì)函數(shù)）。
控制流程：
- 計(jì)劃（Planning）：智能體根據(jù)當(dāng)前屏幕截圖和任務(wù)提示，分解任務(wù)并規(guī)劃一系列子任務(wù)和相應(yīng)的動(dòng)作序列。
- 執(zhí)行（Acting）：智能體根據(jù)規(guī)劃階段的輸出，通過(guò)發(fā)送鼠標(biāo)和鍵盤(pán)命令來(lái)操控計(jì)算機(jī)界面。
- 反思（Reflecting）：智能體評(píng)估執(zhí)行動(dòng)作后的結(jié)果，決定是否需要重試、繼續(xù)或調(diào)整計(jì)劃。
數(shù)據(jù)集和評(píng)估：
- ScreenAgent數(shù)據(jù)集包含了完成各種日常計(jì)算機(jī)任務(wù)時(shí)的屏幕截圖和動(dòng)作序列，用于模型的訓(xùn)練和評(píng)估。
- CC-Score（Vision Language Computer Control Score）是一個(gè)細(xì)粒度的評(píng)估指標(biāo)，用于衡量智能體在計(jì)算機(jī)控制任務(wù)中的表現(xiàn)。
模型訓(xùn)練：
- ScreenAgent模型通過(guò)在ScreenAgent數(shù)據(jù)集上進(jìn)行訓(xùn)練，學(xué)習(xí)如何有效地規(guī)劃、執(zhí)行和反思，以完成復(fù)雜的計(jì)算機(jī)控制任務(wù)。訓(xùn)練過(guò)程中采用多種技術(shù)，包括監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及人類反饋循環(huán)（RLHF）等。

應(yīng)用場(chǎng)景

ScreenAgent可以廣泛應(yīng)用于自動(dòng)化辦公、軟件測(cè)試、游戲操作等領(lǐng)域，幫助用戶高效完成復(fù)雜的計(jì)算機(jī)任務(wù)，提升工作效率。

常見(jiàn)問(wèn)題

ScreenAgent的主要優(yōu)勢(shì)是什么？
ScreenAgent結(jié)合了視覺(jué)理解與自動(dòng)化操作能力，能夠高效地處理復(fù)雜的計(jì)算機(jī)任務(wù)，減少人工干預(yù)。
如何開(kāi)始使用ScreenAgent？
用戶可以通過(guò)訪問(wèn)其[GitHub代碼庫(kù)](https://github.com/niuzaisheng/ScreenAgent)獲取相關(guān)代碼和使用說(shuō)明。
ScreenAgent支持哪些操作系統(tǒng)？
ScreenAgent通過(guò)VNC協(xié)議與計(jì)算機(jī)屏幕交互，通常支持主流操作系統(tǒng)，如Windows和Linux。

閱讀原文