輕松拿捏4K高清圖像理解！這個多模態大模型自動分析網頁海報內容，打工人簡直不要太方便

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：輕松拿捏4K高清圖像理解！這個多模態大模型自動分析網頁海報內容，打工人簡直不要太方便
關鍵字：分辨率,模型,圖像,動態,研究人員
文章來源：量子位
內容字數：3492字

內容摘要：

陳林投稿自凹非寺量子位 | 公眾號 QbitAI一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型，對于打工人來說簡直不要太方便。
上海AI Lab，香港中文大學等研究機構提出的InternLM-XComposer2-4KHD（簡寫為IXC2-4KHD）模型讓這成為了現實。
相比于其他多模態大模型不超過1500×1500的分辨率限制，該工作將多模態大模型的最大輸入圖像提升到超過4K （3840 x1600）分辨率，并支持任意長寬比和336像素～4K動態分辨率變化。
發布三天，該模型就登頂Hugging Face視覺問答模型熱度榜單第一。
輕松拿捏4K圖像理解先來看效果~
研究人員輸入論文（ShareGPT4V: Improving Large Multi-Modal Models with Better Captions）的首頁截圖（分辨率為2550×3300），并詢問論文哪個模型在MMBench上的性能最高。
需要注意的是，該信息在輸入截圖的正文文字部分并未提及，僅僅出現在一個相當復雜的雷達圖中。面對這么刁鉆的問題，IXC2-4KHD成功理解了雷達圖中的信息，正確回答

原文鏈接：輕松拿捏4K高清圖像理解！這個多模態大模型自動分析網頁海報內容，打工人簡直不要太方便