上交發布MG-LLaVA，基于多粒度指令調整，橫掃視覺大模型榜單

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：上交發布MG-LLaVA，基于多粒度指令調整，橫掃視覺大模型榜單
關鍵字：視覺,特征,模型,物體,粒度
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 |Richard近年來多模態大語言模型(MLLMs)在視覺理解任務中取得了長足進步。然而，大多數模型仍局限于處理低分辨率圖像，這限制了它們在需要詳細視覺信息的任務中的表現。針對這一問題，上海交通大學的研究團隊推出了MG-LLaVA（Multi-Granularity LLaVA），這是一種基于多粒度指令調整的創新多模態大語言模型。MG-LLaVA憑借其出色的性能，在多個視覺大模型評測榜單中取得了領先成績。
MG-LLaVA的核心亮點在于引入了多粒度視覺流，同時處理低分辨率、高分辨率和物體中心的特征。這一設計顯著提升了模型的視覺處理能力。具體來說，MG-LLaVA增加了一個高分辨率視覺編碼器來捕捉細粒度細節，并通過一個卷積門控融合網絡將這些細節與基礎視覺特征融合。此外，研究人員還利用離線檢測器識別的邊界框，引入了物體級特征，進一步增強了模型的物體識別能力。
通過在公開可用的多模態數據集上進行指令調優，MG-LLaVA展現出了卓越的感知技能。研究人員還嘗試了從3.8B到34B不同規模的語言編碼器，全面評估了模型的性能。在多項基準測試中，MG-LLaVA的表現超越了同

原文鏈接：上交發布MG-LLaVA，基于多粒度指令調整，橫掃視覺大模型榜單

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文