AIGC動態歡迎閱讀
原標題:微軟開源視覺GUI智能體:增強GPT-4V能力,超3800顆星
關鍵字:圖標,模型,侵權,研究人員,能力
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
文章轉載自公眾號:AIGC開放社區,本文只做學術/技術分享,如有侵權,聯系刪文。
隨著GPT-4V等多模態視覺大模型的出現,在理解和推理視覺內容方面獲得了巨大進步。但是將預測的動作準確轉換為UI上的實際操作時卻很難。
例如,難以準確識別用戶界面內可交互的圖標,以及在理解屏幕截圖中各種元素的語義并將預期動作與屏幕上相應區域的關聯。
為了解決這個難題,微軟研究人員開源了純視覺GUI智能體OmniParser,能夠輕松將用戶界面截圖解析為結構化元素,顯著增強GPT-4V等模型對應界面區域預測的能力。目前,OmniParser在Github上非?;?,已經超過3800顆星。開源地址:https://github.com/microsoft/OmniParserOmniParser功能展示
通常在UI識別操作任務中,模型需要具備兩個關鍵能力:一是理解當前UI屏幕的內容,包括分析整體布局以及識別帶有數字 ID 標注的圖標的功能;二是基于當前屏幕狀態預測下一步有助于完成任務的動作。
研究人員發現,將這兩個任務整合在一個模型中執行會給模型帶來較大負擔,影響其性能表現。因此,OmniParser 采用了一
原文鏈接:微軟開源視覺GUI智能體:增強GPT-4V能力,超3800顆星
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...