<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        ScreenAgent

        AI工具8個月前發布 AI工具集
        1,060 0 0

        ScreenAgent是一款由吉林大學人工智能學院的研究團隊研發的計算機控制智能體,基于視覺語言模型(VLM)構建,能夠與真實計算機屏幕進行智能交互。它的核心優勢在于通過分析屏幕截圖,生成相應的鼠標和鍵盤操作,從而實現對圖形用戶界面的有效操控,完成多步驟的復雜任務。

        ScreenAgent是什么

        ScreenAgent是吉林大學人工智能學院研究團隊開發的一款智能計算機控制代理,利用視覺語言模型(VLM),使其能夠與計算機屏幕進行實時交互。研究者們設計了一個“計劃-執行-反思”的工作流程,以指導智能體與計算機屏幕的持續互動。它的主要功能是根據屏幕截圖生成相應的鼠標和鍵盤動作,以便操控圖形用戶界面(GUI),從而完成復雜的多步驟任務。

        ScreenAgent

        ScreenAgent的官網入口

        ScreenAgent的運行流程

        ScreenAgent

        • 屏幕觀察:ScreenAgent能夠實時觀察和理解計算機屏幕上的內容,通過VNC協議獲取桌面操作系統的實時圖像。
        • 動作生成:在分析完整的屏幕截圖后,ScreenAgent能生成相應的鼠標和鍵盤操作。這些操作以JSON格式輸出,包括移動鼠標、點擊、雙擊、滾動、拖動及鍵盤輸入等。
        • 任務規劃:根據用戶的任務提示,ScreenAgent能夠將復雜任務分解成多個子任務,并為每個子任務制定相應的動作序列,這需要對任務的理解和策略制定。
        • 執行動作:在規劃完成后,ScreenAgent會執行已規劃的子任務,通過發送鼠標和鍵盤命令,實現用戶的目標。
        • 反思評估:在執行動作后,ScreenAgent會評估結果,決定是否重試當前子任務、繼續下一個子任務或調整整體計劃。

        ScreenAgent的技術原理

        • 視覺語言模型(VLM)
          • VLM是一種綜合視覺和語言處理能力的模型,能夠理解圖像內容并生成相應的自然語言描述。
          • 在ScreenAgent中,VLM用于解析屏幕截圖,理解用戶的任務提示,并規劃一系列動作以完成任務。
        • 強化學習環境
          • ScreenAgent通過VNC協議與真實計算機屏幕互動,創建了一個強化學習環境。在此環境中,智能體可以觀察屏幕狀態(狀態空間)、執行動作(動作空間),并根據結果獲得獎勵(獎勵函數)。
        • 控制流程
          • 計劃(Planning):智能體根據當前屏幕截圖和任務提示,分解任務并規劃一系列子任務和相應的動作序列。
          • 執行(Acting):智能體根據規劃階段的輸出,通過發送鼠標和鍵盤命令來操控計算機界面。
          • 反思(Reflecting):智能體評估執行動作后的結果,決定是否需要重試、繼續或調整計劃。
        • 數據集和評估
          • ScreenAgent數據集包含了完成各種日常計算機任務時的屏幕截圖和動作序列,用于模型的訓練和評估。
          • CC-Score(Vision Language Computer Control Score)是一個細粒度的評估指標,用于衡量智能體在計算機控制任務中的表現。
        • 模型訓練
          • ScreenAgent模型通過在ScreenAgent數據集上進行訓練,學習如何有效地規劃、執行和反思,以完成復雜的計算機控制任務。訓練過程中采用多種技術,包括監督學習、強化學習以及人類反饋循環(RLHF)等。

        應用場景

        ScreenAgent可以廣泛應用于自動化辦公、軟件測試、游戲操作等領域,幫助用戶高效完成復雜的計算機任務,提升工作效率。

        常見問題

        • ScreenAgent的主要優勢是什么?
          ScreenAgent結合了視覺理解與自動化操作能力,能夠高效地處理復雜的計算機任務,減少人工干預。
        • 如何開始使用ScreenAgent?
          用戶可以通過訪問其[GitHub代碼庫](https://github.com/niuzaisheng/ScreenAgent)獲取相關代碼和使用說明。
        • ScreenAgent支持哪些操作系統?
          ScreenAgent通過VNC協議與計算機屏幕交互,通常支持主流操作系統,如Windows和Linux。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 另类小说亚洲色图| 亚洲精品午夜国产VA久久成人 | 小草在线看片免费人成视久网| 人妻在线日韩免费视频| 67pao强力打造高清免费| 亚洲成A∨人片在线观看不卡| 日本三级在线观看免费| 亚洲精品无码专区在线在线播放| 亚欧洲精品在线视频免费观看| 全黄大全大色全免费大片| 日本XXX黄区免费看| 亚洲国产精品成人| 又硬又粗又长又爽免费看 | 国产AV无码专区亚洲AV男同| 大地资源网高清在线观看免费| 久久久久久a亚洲欧洲aⅴ| 伊人久久免费视频| 亚洲另类精品xxxx人妖| 免费av欧美国产在钱| 豆国产96在线|亚洲| 99视频在线精品免费| 亚洲一区精品伊人久久伊人| 一区二区3区免费视频| 亚洲精品乱码久久久久久中文字幕| 日本免费人成网ww555在线| 亚洲AV无码一区二区三区国产| 丁香六月婷婷精品免费观看| 亚洲av永久无码精品秋霞电影影院| 亚洲欧美乱色情图片| 四虎永久精品免费观看| 72pao国产成视频永久免费| 亚洲国产香蕉碰碰人人| 91香蕉视频免费| 一区二区三区亚洲| 亚洲一本之道高清乱码| 最近中文字幕电影大全免费版| 亚洲熟女综合色一区二区三区| 精品国产亚洲一区二区在线观看 | 美女裸身网站免费看免费网站| 色偷偷尼玛图亚洲综合| 中文字幕无码不卡免费视频|