輕松拿捏4K高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便
AIGC動態(tài)歡迎閱讀
原標題:輕松拿捏4K高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便
關鍵字:分辨率,模型,圖像,動態(tài),研究人員
文章來源:量子位
內(nèi)容字數(shù):3492字
內(nèi)容摘要:
陳林 投稿自 凹非寺量子位 | 公眾號 QbitAI一個可以自動分析PDF、網(wǎng)頁、海報、Excel圖表內(nèi)容的大模型,對于打工人來說簡直不要太方便。
上海AI Lab,香港中文大學等研究機構提出的InternLM-XComposer2-4KHD(簡寫為IXC2-4KHD)模型讓這成為了現(xiàn)實。
相比于其他多模態(tài)大模型不超過1500×1500的分辨率限制,該工作將多模態(tài)大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,并支持任意長寬比和336像素~4K動態(tài)分辨率變化。
發(fā)布三天,該模型就登頂Hugging Face視覺問答模型熱度榜單第一。
輕松拿捏4K圖像理解先來看效果~
研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(分辨率為2550×3300),并詢問論文哪個模型在MMBench上的性能最高。
需要注意的是,該信息在輸入截圖的正文文字部分并未提及,僅僅出現(xiàn)在一個相當復雜的雷達圖中。面對這么刁鉆的問題,IXC2-4KHD成功理解了雷達圖中的信息,正確回答
原文鏈接:輕松拿捏4K高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破