AIGC動態歡迎閱讀
原標題:復旦字節強強聯手,量身定制多模態思維鏈,讓7B模型全面超越GPT-4V
關鍵字:模型,視覺,圖像,字節跳動,對象
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 任同學多模態大模型在不同的任務中表現出了令人印象深刻的能力,但是在處理復雜任務時,模型的性能仍然受到了單步推理范式的限制。為此,復旦團隊聯合字節跳動提出了 VoCoT,這是一個多步驟的、基于視覺的、以對象為中心的思想鏈推理框架。
VoCoT 具有兩個關鍵特征:(1)以對象為中心的推理路徑,圍繞跨模態共享的對象級信息展開,以及(2)以多模態交叉和對齊的方式對對象概念進行視覺上的表征,有效地彌合了 LMM 在長文本過程中的模態差異。
通過將 VoCoT 引入流行的開源 LMM 架構中,研究人員引入了多模態大模型 VolCano。在僅有 7B 個參數和有限的輸入分辨率的條件下,VolCano 在各種場景下都表現出了優異的性能,在需要復雜推理的任務中超越了包括 GPT-4V 在內的 SOTA 模型。
論文標題:
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
論文鏈接:
https://arxiv.org/abs/2405.16919
背景與挑戰
原文鏈接:復旦字節強強聯手,量身定制多模態思維鏈,讓7B模型全面超越GPT-4V
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189