<button id="igowk"></button>

<strike id="igowk"></strike>

ScreenAI

AI工具6個月前發布 AI工具集

459 0 0

ScreenAI：智能屏幕信息處理的前沿工具

ScreenAI是什么

ScreenAI是谷歌研究團隊開發的一款先進的可讀屏AI視覺語言模型，旨在深度理解和解析用戶界面（UI）及信息圖表。該模型基于PaLI架構，結合了視覺與語言處理的能力，并借鑒了Pix2Struct的靈活拼貼策略，從而能夠理解和生成與屏幕UI元素相關的文本內容，包括問題回答、UI導航指令及內容摘要。
ScreenAI

arXiv研究論文：https://arxiv.org/abs/2402.04615
GitHub PyTorch實現：https://github.com/kyegomez/ScreenAI

ScreenAI的主要功能

ScreenAI

屏幕信息解析：ScreenAI具備識別和理解UI元素及信息圖表內容的能力，包括元素類型、位置及其相互關系。
問題回答（QA）：該模型能夠理解所獲取的視覺信息，并對與UI和信息圖表內容相關的問題進行回答。
UI導航：ScreenAI能夠解析導航指令（例如“返回”），并識別適當的UI元素進行交互，以有效理解用戶意圖并準確導航界面。
內容概括：模型能夠簡明扼要地總結屏幕內容，提煉屏幕信息的核心要點。
適應多種屏幕格式：ScreenAI能夠處理不同分辨率和寬高比的屏幕截圖，適應移動設備與臺式機等多種設備的屏幕格式。

ScreenAI的技術原理

ScreenAI

多模態編碼器：受PaLI架構啟發，ScreenAI采用多模態編碼器塊，包含視覺編碼器和語言編碼器。視覺編碼器基于Vision Transformer (ViT) 架構，將輸入的屏幕截圖轉化為一系列圖像嵌入，而語言編碼器則處理與這些屏幕截圖相關的文本信息，如UI元素的標簽和描述。
圖像與文本融合：在多模態編碼器中，圖像嵌入與文本嵌入相結合，使模型能夠同時理解視覺內容與相關語言信息，從而處理復雜的屏幕交互任務。
自回歸解碼器：編碼器的輸出傳遞給一個自回歸解碼器T5，負責生成文本輸出，能夠基于輸入的圖像和文本嵌入產生自然語言響應。
自動數據生成：為訓練ScreenAI，研究人員利用自動數據生成技術，采用PaLM 2-S語言模型生成合成訓練數據，包括屏幕模式及相應的問題-答案對。這一方法提升了數據的多樣性和復雜性，減少了對手動標注的需求。
圖像分割策略：ScreenAI利用Pix2Struct技術處理不同分辨率和寬高比的屏幕截圖，允許模型根據輸入圖像的形狀和預定義的最大塊數生成任意網格形狀的圖像塊，從而適應各種屏幕格式。
模型配置與訓練：ScreenAI提供670M、2B和5B參數的多個模型版本。這些模型在預訓練階段采用不同的起點，例如從PaLI-3的多模態預訓練檢查點開始。預訓練任務與微調任務的結合，使模型能夠在多種任務上進行訓練和優化。