Long-VITA

Long-VITA – 騰訊優圖聯合南大、廈大開源的多模態模型

Long-VITA是什么

Long-VITA 是由騰訊優圖實驗室、學和廈門大學共同開源的一款多模態模型，具有處理超過100萬tokens的長文本輸入的能力，并在短文本任務中表現優異。該模型采用分階段訓練的方式，逐步提升視覺與語言的上下文理解能力，支持圖像、視頻及文本等多種輸入形式。Long-VITA利用動態分塊編碼器對高分辨率圖像進行處理，并通過上下文并行分布式推理技術支持無限長度輸入的處理。其訓練使用了多個開源數據集，包括漫畫摘要和電影劇情，已在多個多模態基準測試中取得了新的SOTA（State-of-the-Art）性能。

Long-VITA

Long-VITA的主要功能

卓越的長文本處理能力：具備處理超過100萬tokens的能力，適用于長文本、長視頻和高分辨率圖像的多模態任務。
多模態理解能力：支持圖像、視頻和文本輸入，適合視頻理解、高分辨率圖像分析和長文本生成等應用。
擴展上下文能力：通過分階段訓練逐步增加模型的上下文窗口，同時保持短文本任務的高效表現。
開源數據進行訓練：利用開源數據集進行模型訓練，無需依賴內部數據，降低了開發的門檻。
良好的可擴展性：支持上下文并行的分布式推理，能夠處理無限長度的輸入，適合大規模的應用部署。

Long-VITA的技術原理

分階段訓練：
- 視覺與語言的對齊：凍結語言模型和視覺編碼器，僅訓練投影器，以建立初步的視覺和語言特征連接。
- 通用知識的學習：利用圖像-文本數據進行多任務學習，增強模型對通用知識的理解能力。
- 長序列的微調：逐步擴展上下文長度（從128K到1M），引入長文本和視頻理解數據，優化模型對長內容的解析能力。
上下文并行分布式推理：采用張量并行和上下文并行的技術，支持對無限長度輸入的推理，解決長文本處理的內存瓶頸。
動態分塊編碼器：采用動態分塊策略高效處理高分辨率圖像，支持多種寬高比的輸入。
掩碼語言建模頭：在推理階段基于掩碼輸出logits，顯著降低內存消耗，支持大規模的長文本生成。