僅縮小視覺Token位置編碼間隔，輕松讓多模態大模型理解百萬Token！清華大學，香港大學，上海AI Lab新突破

V2PE 的提出將為視覺 – 語言模型的發展帶來新的機遇。

原標題：僅縮小視覺Token位置編碼間隔，輕松讓多模態大模型理解百萬Token！清華大學，香港大學，上海AI Lab新突破
文章來源：機器之心
內容字數：5998字

清華、港大、上海AI Lab 聯合提出V2PE：解決視覺語言大模型長上下文難題

本文介紹了清華大學、香港大學和上海AI Lab 聯合提出的一種新的視覺語言大模型位置編碼方法——Variable Vision Position Embedding (V2PE)，該方法有效解決了現有視覺語言大模型 (VLMs) 在長上下文場景下表現不佳的問題。

1. 長上下文問題與V2PE的提出

隨著語言大模型的成功，VLMs發展迅速，但在處理長上下文（如長視頻、高分辨率圖像或長篇圖文文檔）時，其性能顯著下降。為解決這一問題，研究團隊提出了V2PE。現有VLMs通常沿用文本模型的位置編碼方式處理圖像token，這并非最優方案。V2PE通過為視覺token分配可變且較小的位置增量，避免了位置編碼超出模型訓練上下文窗口的限制，從而顯著提升了模型在長上下文任務中的表現。

2. V2PE的核心思想與優勢

V2PE的核心思想是為視覺token分配可變位置增量。傳統的VLMs位置編碼不區分文本和圖像token，且使用固定的編碼規則。而圖像token是二維數據，需要考慮空間位置和多分辨率信息。V2PE通過一個遞歸函數，為文本和視覺token分配不同的位置索引，視覺token的增量小于1，從而有效管理長多模態序列。這保留了所有視覺token的信息，并允許模型適應任意間隔的位置索引，避免了位置編碼外推帶來的不準確性。

3. 數據集與實驗結果

研究團隊構建了兩個增強的長上下文多模態數據集：Long-VQA和Long-MR，用于評估VLMs的長上下文能力。實驗結果表明，V2PE在32K至1M長度的超長上下文任務中實現了突破性改進，甚至超越了最先進的閉源大模型。在32K以內訓練的模型，在64K長度的測試集上，采用更小的增量可以有效緩解性能下降。在1M長度的測試中，V2PE顯著優于未采用V2PE的模型和使用插值方法的模型。

4. 消融實驗與注意力機制分析

消融實驗比較了V2PE與其他方法（如token壓縮、固定視覺token位置編碼增量）的性能，證明了V2PE的優勢。注意力圖分析顯示，隨著增量的減小，模型能更好地將注意力集中在問題對應的答案附近，證明V2PE能夠有效提升模型對關鍵信息的關注。

5. 總結

V2PE為視覺語言模型在長上下文場景下的性能提升提供了一種新的思路。通過為視覺token分配可變的位置增量，V2PE有效解決了位置編碼超出模型訓練上下文窗口的問題，展現了卓越的長上下文處理能力，為VLMs在長上下文多模態任務中的應用提供了更多可能性。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 多模態大模型 # 百萬Token理解 # 稀疏注意力機制 # 視覺Token位置編碼 # 長序列建模

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

僅縮小視覺Token位置編碼間隔，輕松讓多模態大模型理解百萬Token！清華大學，香港大學，上海AI Lab新突破

V2PE 的提出將為視覺 – 語言模型的發展帶來新的機遇。

清華、港大、上海AI Lab 聯合提出V2PE：解決視覺語言大模型長上下文難題

1. 長上下文問題與V2PE的提出

2. V2PE的核心思想與優勢

3. 數據集與實驗結果

4. 消融實驗與注意力機制分析

5. 總結

聯系作者

潑天流量來了，小紅書喜迎TikTok美國逃難者

“鍵盤敲出火星子了”！小紅書 IT 團隊加班承接 TikTok 這波潑天流量，這款 AI 搜索還趁機火了

相關文章

暫無評論

ChatGPT

玩虛擬模特？