AIGC動態歡迎閱讀
原標題:谷歌發布最新「讀屏」AI!PaLM 2-S自動生成數據,多項理解任務刷新SOTA
關鍵字:模型,任務,研究人員,編碼器,圖像
文章來源:新智元
內容字數:5877字
內容摘要:
新智元報道編輯:桃子
【新智元導讀】谷歌在語言和聲控計算機界面的漫長道路上又邁出了重要一步。最新ScreenAI視覺語言模型,能夠完成各種屏幕QA問答、總結摘要等任務。每個人想要的大模型,是真·智能的那種……
這不,谷歌團隊就做出來了一個強大的「讀屏」AI。
研究人員將其稱為ScreenAI,是一種理解用戶界面和信息圖表的全新視覺語言模型。
論文地址:https://arxiv.org/pdf/2402.04615.pdf
ScreenAI的核心是一種新的屏幕截圖文本表示方法,可以識別UI元素的類型和位置。
值得一提的是,研究人員使用谷歌語言模型PaLM 2-S生成了合成訓練數據,以訓練模型回答關屏幕信息、屏幕導航和屏幕內容摘要的問題。
舉個栗子,比如打開一音樂APP頁面,可以詢問「有幾首歌時長少于30秒」?
ScreenAI便給出了簡單的答案:1。
再比如命令ScreenAI打開菜單,就可以選中。
架構靈感來源——PaLI圖1中展示了ScreenAI模型架構。研究人員受到了PaLI系列模型架構(由一個多模態編碼器塊組成)的啟發。
該編碼器塊包含一個類似ViT的視覺編碼器和一
原文鏈接:谷歌發布最新「讀屏」AI!PaLM 2-S自動生成數據,多項理解任務刷新SOTA
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...