清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
關(guān)鍵字:解讀,模型,視覺,圖像,分辨率
文章來源:AI前線
內(nèi)容字?jǐn)?shù):3775字
內(nèi)容摘要:
作者 | 凌敏
近日,清華 KEG 實(shí)驗(yàn)室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個(gè)通用的視覺理解大模型,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入。在 9 個(gè)經(jīng)典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦、手機(jī)的 GUI Agent 數(shù)據(jù)集上(含 Mind2Web,AITW 等),大幅超過基于 LLM 的 Agent,取得第一。
在網(wǎng)頁 Agent 數(shù)據(jù)集 Mind2Web 上的性能
在手機(jī) Agent 數(shù)據(jù)集 AITW 上的性能
為了更好地促進(jìn)多模態(tài)大模型、Agent 社區(qū)的發(fā)展,目前團(tuán)隊(duì)已將 CogAgent-18B 開源至 GitHub 倉庫,并提供了網(wǎng)頁版 Demo。
論文鏈接:https://arxiv.org/pdf/2312.08914.pdf
GitHub 項(xiàng)目地址(含開源模型、網(wǎng)頁版 Demo):https://github.com
原文鏈接:清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實(shí)踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課,助力你全面擁抱人工智能技術(shù)。