谷歌發布最新「讀屏」AI！PaLM 2-S自動生成數據，多項理解任務刷新SOTA

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：谷歌發布最新「讀屏」AI！PaLM 2-S自動生成數據，多項理解任務刷新SOTA
關鍵字：模型,任務,研究人員,編碼器,圖像
文章來源：新智元
內容字數：5877字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】谷歌在語言和聲控計算機界面的漫長道路上又邁出了重要一步。最新ScreenAI視覺語言模型，能夠完成各種屏幕QA問答、總結摘要等任務。每個人想要的大模型，是真·智能的那種……
這不，谷歌團隊就做出來了一個強大的「讀屏」AI。
研究人員將其稱為ScreenAI，是一種理解用戶界面和信息圖表的全新視覺語言模型。
論文地址：https://arxiv.org/pdf/2402.04615.pdf
ScreenAI的核心是一種新的屏幕截圖文本表示方法，可以識別UI元素的類型和位置。
值得一提的是，研究人員使用谷歌語言模型PaLM 2-S生成了合成訓練數據，以訓練模型回答關屏幕信息、屏幕導航和屏幕內容摘要的問題。
舉個栗子，比如打開一音樂APP頁面，可以詢問「有幾首歌時長少于30秒」？
ScreenAI便給出了簡單的答案：1。
再比如命令ScreenAI打開菜單，就可以選中。
架構靈感來源——PaLI圖1中展示了ScreenAI模型架構。研究人員受到了PaLI系列模型架構（由一個多模態編碼器塊組成）的啟發。
該編碼器塊包含一個類似ViT的視覺編碼器和一