<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        僅縮小視覺(jué)Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬(wàn)Token!清華大學(xué),香港大學(xué),上海AI Lab新突破

        V2PE 的提出將為視覺(jué) – 語(yǔ)言模型的發(fā)展帶來(lái)新的機(jī)遇。

        僅縮小視覺(jué)Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬(wàn)Token!清華大學(xué),香港大學(xué),上海AI Lab新突破

        原標(biāo)題:僅縮小視覺(jué)Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬(wàn)Token!清華大學(xué),香港大學(xué),上海AI Lab新突破
        文章來(lái)源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):5998字

        清華、港大、上海AI Lab 聯(lián)合提出V2PE:解決視覺(jué)語(yǔ)言大模型長(zhǎng)上下文難題

        本文介紹了清華大學(xué)、香港大學(xué)和上海AI Lab 聯(lián)合提出的一種新的視覺(jué)語(yǔ)言大模型位置編碼方法——Variable Vision Position Embedding (V2PE),該方法有效解決了現(xiàn)有視覺(jué)語(yǔ)言大模型 (VLMs) 在長(zhǎng)上下文場(chǎng)景下表現(xiàn)不佳的問(wèn)題。

        1. 長(zhǎng)上下文問(wèn)題與V2PE的提出

        隨著語(yǔ)言大模型的成功,VLMs發(fā)展迅速,但在處理長(zhǎng)上下文(如長(zhǎng)視頻、高分辨率圖像或長(zhǎng)篇圖文文檔)時(shí),其性能顯著下降。 為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了V2PE。現(xiàn)有VLMs通常沿用文本模型的位置編碼方式處理圖像token,這并非最優(yōu)方案。V2PE通過(guò)為視覺(jué)token分配可變且較小的位置增量,避免了位置編碼超出模型訓(xùn)練上下文窗口的限制,從而顯著提升了模型在長(zhǎng)上下文任務(wù)中的表現(xiàn)。

        2. V2PE的核心思想與優(yōu)勢(shì)

        V2PE的核心思想是為視覺(jué)token分配可變位置增量。傳統(tǒng)的VLMs位置編碼不區(qū)分文本和圖像token,且使用固定的編碼規(guī)則。而圖像token是二維數(shù)據(jù),需要考慮空間位置和多分辨率信息。V2PE通過(guò)一個(gè)遞歸函數(shù),為文本和視覺(jué)token分配不同的位置索引,視覺(jué)token的增量小于1,從而有效管理長(zhǎng)多模態(tài)序列。這保留了所有視覺(jué)token的信息,并允許模型適應(yīng)任意間隔的位置索引,避免了位置編碼外推帶來(lái)的不準(zhǔn)確性。

        3. 數(shù)據(jù)集與實(shí)驗(yàn)結(jié)果

        研究團(tuán)隊(duì)構(gòu)建了兩個(gè)增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集:Long-VQA和Long-MR,用于評(píng)估VLMs的長(zhǎng)上下文能力。實(shí)驗(yàn)結(jié)果表明,V2PE在32K至1M長(zhǎng)度的超長(zhǎng)上下文任務(wù)中實(shí)現(xiàn)了突破性改進(jìn),甚至超越了最先進(jìn)的閉源大模型。在32K以內(nèi)訓(xùn)練的模型,在64K長(zhǎng)度的測(cè)試集上,采用更小的增量可以有效緩解性能下降。在1M長(zhǎng)度的測(cè)試中,V2PE顯著優(yōu)于未采用V2PE的模型和使用插值方法的模型。

        4. 消融實(shí)驗(yàn)與注意力機(jī)制分析

        消融實(shí)驗(yàn)比較了V2PE與其他方法(如token壓縮、固定視覺(jué)token位置編碼增量)的性能,證明了V2PE的優(yōu)勢(shì)。注意力圖分析顯示,隨著增量的減小,模型能更好地將注意力集中在問(wèn)題對(duì)應(yīng)的答案附近,證明V2PE能夠有效提升模型對(duì)關(guān)鍵信息的關(guān)注。

        5. 總結(jié)

        V2PE為視覺(jué)語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景下的性能提升提供了一種新的思路。通過(guò)為視覺(jué)token分配可變的位置增量,V2PE有效解決了位置編碼超出模型訓(xùn)練上下文窗口的問(wèn)題,展現(xiàn)了卓越的長(zhǎng)上下文處理能力,為VLMs在長(zhǎng)上下文多模態(tài)任務(wù)中的應(yīng)用提供了更多可能性。


        聯(lián)系作者

        文章來(lái)源:機(jī)器之心
        作者微信:
        作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 未满十八私人高清免费影院| 猫咪www免费人成网站| 最近免费中文字幕中文高清 | 中文字幕亚洲电影| 男人和女人高潮免费网站| 国产女高清在线看免费观看| 亚洲国产综合无码一区二区二三区| 99999久久久久久亚洲| 好男人www免费高清视频在线| 亚洲性无码av在线| 免费无码精品黄AV电影| 激情综合亚洲色婷婷五月APP| 99久久99久久精品免费看蜜桃 | 人人狠狠综合久久亚洲88| 182tv免费视频在线观看| 久久久久亚洲AV成人无码网站 | 免费的一级片网站| 国产亚洲福利一区二区免费看 | 永久免费精品影视网站| 中文字幕亚洲激情| 在线观看的免费网站无遮挡| 亚洲AV无码一区二区三区在线观看| 亚洲国产成人AV网站| 亚洲AV蜜桃永久无码精品| ww亚洲ww在线观看国产| 麻豆成人精品国产免费| 免费人成大片在线观看播放电影| AV在线播放日韩亚洲欧| 日韩插啊免费视频在线观看| 亚洲国产精品网站久久| 免费无码A片一区二三区| 人人爽人人爽人人片A免费| 亚洲国产精品SSS在线观看AV| 无码一区二区三区AV免费| 高潮毛片无遮挡高清免费视频| 亚洲日产无码中文字幕| 国产成人无码免费看视频软件| 黄色免费网址大全| 亚洲资源在线视频| 亚洲av无码天堂一区二区三区| 2019中文字幕免费电影在线播放|