僅縮小視覺Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬Token!清華大學,香港大學,上海AI Lab新突破
V2PE 的提出將為視覺 – 語言模型的發(fā)展帶來新的機遇。
原標題:僅縮小視覺Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬Token!清華大學,香港大學,上海AI Lab新突破
文章來源:機器之心
內容字數:5998字
清華、港大、上海AI Lab 聯合提出V2PE:解決視覺語言大模型長上下文難題
本文介紹了清華大學、香港大學和上海AI Lab 聯合提出的一種新的視覺語言大模型位置編碼方法——Variable Vision Position Embedding (V2PE),該方法有效解決了現有視覺語言大模型 (VLMs) 在長上下文場景下表現不佳的問題。
1. 長上下文問題與V2PE的提出
隨著語言大模型的成功,VLMs發(fā)展迅速,但在處理長上下文(如長視頻、高分辨率圖像或長篇圖文文檔)時,其性能顯著下降。 為解決這一問題,研究團隊提出了V2PE。現有VLMs通常沿用文本模型的位置編碼方式處理圖像token,這并非最優(yōu)方案。V2PE通過為視覺token分配可變且較小的位置增量,避免了位置編碼超出模型訓練上下文窗口的限制,從而顯著提升了模型在長上下文任務中的表現。
2. V2PE的核心思想與優(yōu)勢
V2PE的核心思想是為視覺token分配可變位置增量。傳統(tǒng)的VLMs位置編碼不區(qū)分文本和圖像token,且使用固定的編碼規(guī)則。而圖像token是二維數據,需要考慮空間位置和多分辨率信息。V2PE通過一個遞歸函數,為文本和視覺token分配不同的位置索引,視覺token的增量小于1,從而有效管理長多模態(tài)序列。這保留了所有視覺token的信息,并允許模型適應任意間隔的位置索引,避免了位置編碼外推帶來的不準確性。
3. 數據集與實驗結果
研究團隊構建了兩個增強的長上下文多模態(tài)數據集:Long-VQA和Long-MR,用于評估VLMs的長上下文能力。實驗結果表明,V2PE在32K至1M長度的超長上下文任務中實現了突破性改進,甚至超越了最先進的閉源大模型。在32K以內訓練的模型,在64K長度的測試集上,采用更小的增量可以有效緩解性能下降。在1M長度的測試中,V2PE顯著優(yōu)于未采用V2PE的模型和使用插值方法的模型。
4. 消融實驗與注意力機制分析
消融實驗比較了V2PE與其他方法(如token壓縮、固定視覺token位置編碼增量)的性能,證明了V2PE的優(yōu)勢。注意力圖分析顯示,隨著增量的減小,模型能更好地將注意力集中在問題對應的答案附近,證明V2PE能夠有效提升模型對關鍵信息的關注。
5. 總結
V2PE為視覺語言模型在長上下文場景下的性能提升提供了一種新的思路。通過為視覺token分配可變的位置增量,V2PE有效解決了位置編碼超出模型訓練上下文窗口的問題,展現了卓越的長上下文處理能力,為VLMs在長上下文多模態(tài)任務中的應用提供了更多可能性。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產業(yè)服務平臺