AIGC動態歡迎閱讀
原標題:2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥
關鍵字:切分,尺度,策略,模型,圖像
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRST 好困
【新智元導讀】Mini-Monkey 是一個輕量級的多模態大型語言模型,通過采用多尺度自適應切分策略(MSAC)和尺度壓縮機制(SCM),有效緩解了傳統圖像切分策略帶來的鋸齒效應,提升了模型在高分辨率圖像處理和文檔理解任務的性能。它在多項基準測試中取得了領先的成績,證明了其在多模態理解和文檔智能領域的潛力。最近,提升多模態大模型處理高分辨率圖像的能力越來越引起這個領域的關注。
絕大多數方法致力于通過對圖像進行切分再融合的策略,來提升多模態大模型對圖像細節的理解能力。
然而,由于對圖像的切分操作,不可避免會對目標、聯通區域帶來割裂,導致MLMMs對于微小或形狀不規則的目標的辨識能力。這個現象在文檔理解任務中,表現極為明顯,由于文字端經常被中斷。
針對這一挑戰,華中科技大學和華南理工大學最近聯合發布一個多模態大模型Mini-Monkey,使用了可插拔的多尺度自適應策略(MSAC)的輕量化多模態大模型。
Mini-Monkey自適應生成多尺度表示,允許模型從各種尺度中選擇未分割的對象,其性能達到了2B多模態大模型的新SOTA。論文地址:https://arx
原文鏈接:2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...