AIGC動態歡迎閱讀
原標題:輕松拿捏4K高清圖像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便
關鍵字:分辨率,模型,圖像,動態,研究人員
文章來源:量子位
內容字數:3492字
內容摘要:
陳林 投稿自 凹非寺量子位 | 公眾號 QbitAI一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型,對于打工人來說簡直不要太方便。
上海AI Lab,香港中文大學等研究機構提出的InternLM-XComposer2-4KHD(簡寫為IXC2-4KHD)模型讓這成為了現實。
相比于其他多模態大模型不超過1500×1500的分辨率限制,該工作將多模態大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,并支持任意長寬比和336像素~4K動態分辨率變化。
發布三天,該模型就登頂Hugging Face視覺問答模型熱度榜單第一。
輕松拿捏4K圖像理解先來看效果~
研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(分辨率為2550×3300),并詢問論文哪個模型在MMBench上的性能最高。
需要注意的是,該信息在輸入截圖的正文文字部分并未提及,僅僅出現在一個相當復雜的雷達圖中。面對這么刁鉆的問題,IXC2-4KHD成功理解了雷達圖中的信息,正確回答
原文鏈接:輕松拿捏4K高清圖像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...