僅縮小視覺(jué)Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬(wàn)Token!清華大學(xué),香港大學(xué),上海AI Lab新突破
V2PE 的提出將為視覺(jué) – 語(yǔ)言模型的發(fā)展帶來(lái)新的機(jī)遇。
原標(biāo)題:僅縮小視覺(jué)Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬(wàn)Token!清華大學(xué),香港大學(xué),上海AI Lab新突破
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5998字
清華、港大、上海AI Lab 聯(lián)合提出V2PE:解決視覺(jué)語(yǔ)言大模型長(zhǎng)上下文難題
本文介紹了清華大學(xué)、香港大學(xué)和上海AI Lab 聯(lián)合提出的一種新的視覺(jué)語(yǔ)言大模型位置編碼方法——Variable Vision Position Embedding (V2PE),該方法有效解決了現(xiàn)有視覺(jué)語(yǔ)言大模型 (VLMs) 在長(zhǎng)上下文場(chǎng)景下表現(xiàn)不佳的問(wèn)題。
1. 長(zhǎng)上下文問(wèn)題與V2PE的提出
隨著語(yǔ)言大模型的成功,VLMs發(fā)展迅速,但在處理長(zhǎng)上下文(如長(zhǎng)視頻、高分辨率圖像或長(zhǎng)篇圖文文檔)時(shí),其性能顯著下降。 為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了V2PE。現(xiàn)有VLMs通常沿用文本模型的位置編碼方式處理圖像token,這并非最優(yōu)方案。V2PE通過(guò)為視覺(jué)token分配可變且較小的位置增量,避免了位置編碼超出模型訓(xùn)練上下文窗口的限制,從而顯著提升了模型在長(zhǎng)上下文任務(wù)中的表現(xiàn)。
2. V2PE的核心思想與優(yōu)勢(shì)
V2PE的核心思想是為視覺(jué)token分配可變位置增量。傳統(tǒng)的VLMs位置編碼不區(qū)分文本和圖像token,且使用固定的編碼規(guī)則。而圖像token是二維數(shù)據(jù),需要考慮空間位置和多分辨率信息。V2PE通過(guò)一個(gè)遞歸函數(shù),為文本和視覺(jué)token分配不同的位置索引,視覺(jué)token的增量小于1,從而有效管理長(zhǎng)多模態(tài)序列。這保留了所有視覺(jué)token的信息,并允許模型適應(yīng)任意間隔的位置索引,避免了位置編碼外推帶來(lái)的不準(zhǔn)確性。
3. 數(shù)據(jù)集與實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)構(gòu)建了兩個(gè)增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集:Long-VQA和Long-MR,用于評(píng)估VLMs的長(zhǎng)上下文能力。實(shí)驗(yàn)結(jié)果表明,V2PE在32K至1M長(zhǎng)度的超長(zhǎng)上下文任務(wù)中實(shí)現(xiàn)了突破性改進(jìn),甚至超越了最先進(jìn)的閉源大模型。在32K以內(nèi)訓(xùn)練的模型,在64K長(zhǎng)度的測(cè)試集上,采用更小的增量可以有效緩解性能下降。在1M長(zhǎng)度的測(cè)試中,V2PE顯著優(yōu)于未采用V2PE的模型和使用插值方法的模型。
4. 消融實(shí)驗(yàn)與注意力機(jī)制分析
消融實(shí)驗(yàn)比較了V2PE與其他方法(如token壓縮、固定視覺(jué)token位置編碼增量)的性能,證明了V2PE的優(yōu)勢(shì)。注意力圖分析顯示,隨著增量的減小,模型能更好地將注意力集中在問(wèn)題對(duì)應(yīng)的答案附近,證明V2PE能夠有效提升模型對(duì)關(guān)鍵信息的關(guān)注。
5. 總結(jié)
V2PE為視覺(jué)語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景下的性能提升提供了一種新的思路。通過(guò)為視覺(jué)token分配可變的位置增量,V2PE有效解決了位置編碼超出模型訓(xùn)練上下文窗口的問(wèn)題,展現(xiàn)了卓越的長(zhǎng)上下文處理能力,為VLMs在長(zhǎng)上下文多模態(tài)任務(wù)中的應(yīng)用提供了更多可能性。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)