如何高效橋接視覺和語(yǔ)言，字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo

ParGo 克服了傳統(tǒng)方法中忽視細(xì)節(jié)的問題。

原標(biāo)題：如何高效橋接視覺和語(yǔ)言，字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：3778字

字節(jié)跳動(dòng)與中大合作：ParGo模型革新多模態(tài)大語(yǔ)言模型視覺-語(yǔ)言連接

本文總結(jié)了字節(jié)跳動(dòng)與中山大學(xué)合作提出的ParGo模型，該模型在多模態(tài)大語(yǔ)言模型（MLLMs）的視覺-語(yǔ)言連接方面取得了顯著突破，并被AAAI 2025收錄。

1. 多模態(tài)大語(yǔ)言模型中的視覺-語(yǔ)言連接挑戰(zhàn)

在MLLMs中，高效地將視覺特征映射到LLM的語(yǔ)言空間是關(guān)鍵。傳統(tǒng)的線性投影或多層感知機(jī)（MLP）方法難以控制視覺token數(shù)量，尤其在處理細(xì)粒度特征時(shí)計(jì)算成本極高?；谧⒁饬C(jī)制的方法（如Q-former）雖然降低了計(jì)算成本，但容易忽略圖像細(xì)節(jié)，過度關(guān)注顯著區(qū)域。

2. ParGo模型：全局視野與局部細(xì)節(jié)的融合

為了解決上述問題，ParGo模型提出了一種創(chuàng)新的全局-局部投影器。該模型的核心在于巧妙地融合全局視野和局部細(xì)節(jié)，通過兩種類型的可學(xué)習(xí)token——Partial token和Global token——分別提取圖像的局部和全局信息。

3. 核心模塊：Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)

ParGo包含兩個(gè)關(guān)鍵模塊：PGP和CPP。PGP模塊利用Partial-Global Attention Mask，同時(shí)輸出包含局部和全局信息的Partial tokens和Global tokens。CPP模塊則通過級(jí)聯(lián)的自注意力機(jī)制，逐步擴(kuò)展Partial token的感知范圍，增強(qiáng)對(duì)多種局部信息的捕獲能力，尤其是在不同局部物體占比不同的情況下。

4. 實(shí)驗(yàn)結(jié)果與對(duì)比

論文在多個(gè)權(quán)威基準(zhǔn)測(cè)試中對(duì)ParGo與其他主流投影器進(jìn)行了對(duì)比，結(jié)果顯示ParGo在各種基座LLM下均表現(xiàn)出色，取得了最佳性能。尤其是在控制token數(shù)量的同時(shí)，ParGo在文字識(shí)別準(zhǔn)確率、圖像細(xì)節(jié)描述程度和局部元素識(shí)別效果上都優(yōu)于其他方法，例如Q-former。

5. ParGo模型的優(yōu)勢(shì)與總結(jié)

ParGo模型通過結(jié)合局部和全局信息，并使用精心設(shè)計(jì)的注意力掩碼，在控制token數(shù)量的同時(shí)，增強(qiáng)了局部區(qū)域之間的關(guān)系建模，有效克服了傳統(tǒng)方法忽視細(xì)節(jié)的問題。這使得ParGo能夠在更細(xì)膩的層面上展現(xiàn)視覺特征，實(shí)現(xiàn)視覺特征和LLM的高效連接，顯著提升了多模態(tài)大語(yǔ)言模型的效果。

總之，ParGo模型為多模態(tài)大語(yǔ)言模型的視覺-語(yǔ)言連接提供了一種高效且有效的解決方案，其在兼顧全局信息和局部細(xì)節(jié)方面的創(chuàng)新，為未來MLLMs的發(fā)展指明了新的方向。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡(jiǎn)介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# ParGo大模型 # 多模態(tài)大模型橋接 # 大模型跨模態(tài)連接 # 視覺語(yǔ)言連接器 # 高效多模態(tài)融合

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

如何高效橋接視覺和語(yǔ)言，字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo

ParGo 克服了傳統(tǒng)方法中忽視細(xì)節(jié)的問題。

字節(jié)跳動(dòng)與中大合作：ParGo模型革新多模態(tài)大語(yǔ)言模型視覺-語(yǔ)言連接