AIGC動態歡迎閱讀
原標題:清華大學與智譜 AI 聯合推出 CogAgent:基于多模態大模型的 GUI Agent,具備視覺問答、視覺定位等能力
關鍵字:解讀,模型,視覺,圖像,分辨率
文章來源:AI前線
內容字數:3775字
內容摘要:
作者 | 凌敏
近日,清華 KEG 實驗室與智譜 AI 聯合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入。在 9 個經典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦、手機的 GUI Agent 數據集上(含 Mind2Web,AITW 等),大幅超過基于 LLM 的 Agent,取得第一。
在網頁 Agent 數據集 Mind2Web 上的性能
在手機 Agent 數據集 AITW 上的性能
為了更好地促進多模態大模型、Agent 社區的發展,目前團隊已將 CogAgent-18B 開源至 GitHub 倉庫,并提供了網頁版 Demo。
論文鏈接:https://arxiv.org/pdf/2312.08914.pdf
GitHub 項目地址(含開源模型、網頁版 Demo):https://github.com
原文鏈接:清華大學與智譜 AI 聯合推出 CogAgent:基于多模態大模型的 GUI Agent,具備視覺問答、視覺定位等能力
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供AI領域技術資訊、一線業界實踐案例、搜羅整理業界技術分享干貨、AI論文解讀。每周一節技術分享公開課,助力你全面擁抱人工智能技術。