<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        如何高效橋接視覺和語(yǔ)言,字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo

        ParGo 克服了傳統(tǒng)方法中忽視細(xì)節(jié)的問題。

        如何高效橋接視覺和語(yǔ)言,字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo

        原標(biāo)題:如何高效橋接視覺和語(yǔ)言,字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):3778字

        字節(jié)跳動(dòng)與中大合作:ParGo模型革新多模態(tài)大語(yǔ)言模型視覺-語(yǔ)言連接

        本文總結(jié)了字節(jié)跳動(dòng)與中山大學(xué)合作提出的ParGo模型,該模型在多模態(tài)大語(yǔ)言模型(MLLMs)的視覺-語(yǔ)言連接方面取得了顯著突破,并被AAAI 2025收錄。

        1. 多模態(tài)大語(yǔ)言模型中的視覺-語(yǔ)言連接挑戰(zhàn)

        在MLLMs中,高效地將視覺特征映射到LLM的語(yǔ)言空間是關(guān)鍵。傳統(tǒng)的線性投影或多層感知機(jī)(MLP)方法難以控制視覺token數(shù)量,尤其在處理細(xì)粒度特征時(shí)計(jì)算成本極高?;谧⒁饬C(jī)制的方法(如Q-former)雖然降低了計(jì)算成本,但容易忽略圖像細(xì)節(jié),過度關(guān)注顯著區(qū)域。

        2. ParGo模型:全局視野與局部細(xì)節(jié)的融合

        為了解決上述問題,ParGo模型提出了一種創(chuàng)新的全局-局部投影器。該模型的核心在于巧妙地融合全局視野和局部細(xì)節(jié),通過兩種類型的可學(xué)習(xí)token——Partial token和Global token——分別提取圖像的局部和全局信息。

        3. 核心模塊:Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)

        ParGo包含兩個(gè)關(guān)鍵模塊:PGP和CPP。PGP模塊利用Partial-Global Attention Mask,同時(shí)輸出包含局部和全局信息的Partial tokens和Global tokens。CPP模塊則通過級(jí)聯(lián)的自注意力機(jī)制,逐步擴(kuò)展Partial token的感知范圍,增強(qiáng)對(duì)多種局部信息的捕獲能力,尤其是在不同局部物體占比不同的情況下。

        4. 實(shí)驗(yàn)結(jié)果與對(duì)比

        論文在多個(gè)權(quán)威基準(zhǔn)測(cè)試中對(duì)ParGo與其他主流投影器進(jìn)行了對(duì)比,結(jié)果顯示ParGo在各種基座LLM下均表現(xiàn)出色,取得了最佳性能。尤其是在控制token數(shù)量的同時(shí),ParGo在文字識(shí)別準(zhǔn)確率、圖像細(xì)節(jié)描述程度和局部元素識(shí)別效果上都優(yōu)于其他方法,例如Q-former。

        5. ParGo模型的優(yōu)勢(shì)與總結(jié)

        ParGo模型通過結(jié)合局部和全局信息,并使用精心設(shè)計(jì)的注意力掩碼,在控制token數(shù)量的同時(shí),增強(qiáng)了局部區(qū)域之間的關(guān)系建模,有效克服了傳統(tǒng)方法忽視細(xì)節(jié)的問題。這使得ParGo能夠在更細(xì)膩的層面上展現(xiàn)視覺特征,實(shí)現(xiàn)視覺特征和LLM的高效連接,顯著提升了多模態(tài)大語(yǔ)言模型的效果。

        總之,ParGo模型為多模態(tài)大語(yǔ)言模型的視覺-語(yǔ)言連接提供了一種高效且有效的解決方案,其在兼顧全局信息和局部細(xì)節(jié)方面的創(chuàng)新,為未來MLLMs的發(fā)展指明了新的方向。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 拨牐拨牐x8免费| 亚洲午夜成激人情在线影院| 亚洲一区二区三区免费观看| 一级特黄录像视频免费 | 和老外3p爽粗大免费视频| 亚洲中文字幕久久久一区| 精品亚洲成a人片在线观看| 亚洲人成人无码网www国产| 毛片a级毛片免费播放下载| 久久大香伊焦在人线免费| 成人久久久观看免费毛片| 亚洲国产无线乱码在线观看 | 四虎国产成人永久精品免费| 羞羞视频在线观看免费| 亚洲成a人无码亚洲成www牛牛| 亚洲国产精品日韩在线| 亚洲av日韩av无码黑人| 亚洲欧洲美洲无码精品VA| www.91亚洲| 免费大片黄手机在线观看| 永久中文字幕免费视频网站| 日韩免费a级毛片无码a∨| 国产国产人免费视频成69堂| 日韩成人免费视频| 一区二区三区无码视频免费福利 | 亚洲午夜未满十八勿入网站2| 免费a级毛片无码av| 四虎在线播放免费永久视频 | 中文无码亚洲精品字幕| 亚洲天堂2017无码中文| 456亚洲人成影院在线观| 亚洲an日韩专区在线| 亚洲av无码一区二区三区观看| 亚洲国产视频网站| 亚洲一区二区三区国产精品无码| 亚洲国产成人va在线观看网址| 亚洲精品福利网泷泽萝拉| 亚洲国产精品人久久电影| 亚洲国产激情在线一区| 亚洲中文字幕久久精品无码VA| 亚洲AV成人无码久久WWW|