復旦字節強強聯手，量身定制多模態思維鏈，讓7B模型全面超越GPT-4V

AIGC動態歡迎閱讀

原標題：復旦字節強強聯手，量身定制多模態思維鏈，讓7B模型全面超越GPT-4V
關鍵字：模型,視覺,圖像,字節跳動,對象
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 任同學多模態大模型在不同的任務中表現出了令人印象深刻的能力，但是在處理復雜任務時，模型的性能仍然受到了單步推理范式的限制。為此，復旦團隊聯合字節跳動提出了 VoCoT，這是一個多步驟的、基于視覺的、以對象為中心的思想鏈推理框架。
VoCoT 具有兩個關鍵特征：（1）以對象為中心的推理路徑，圍繞跨模態共享的對象級信息展開，以及（2）以多模態交叉和對齊的方式對對象概念進行視覺上的表征，有效地彌合了 LMM 在長文本過程中的模態差異。
通過將 VoCoT 引入流行的開源 LMM 架構中，研究人員引入了多模態大模型 VolCano。在僅有 7B 個參數和有限的輸入分辨率的條件下，VolCano 在各種場景下都表現出了優異的性能，在需要復雜推理的任務中超越了包括 GPT-4V 在內的 SOTA 模型。
論文標題：
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
論文鏈接：
https://arxiv.org/abs/2405.16919
背景與挑戰

原文鏈接：復旦字節強強聯手，量身定制多模態思維鏈，讓7B模型全面超越GPT-4V

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文