InternVideo2.5

InternVideo2.5 – 上海 AI Lab 聯合南大、中科院開源的視頻多模態大模型

InternVideo2.5是由上海人工智能實驗室、學和中科院深圳先進技術研究院聯合開源的一款視頻多模態大模型。該模型在視頻理解領域實現了突破性進展，尤其在處理長視頻和細粒度時空感知方面表現卓越。InternVideo2.5可以處理長達萬幀的視頻，視頻處理能力較前一版本提升了六倍，能夠在長視頻中準確定位目標幀，完成高效的視頻檢索。

InternVideo2.5是什么

InternVideo2.5是一款由上海人工智能實驗室與學及中科院深圳先進技術研究院共同開發并開源的視頻多模態大模型。該模型在視頻理解領域取得了顯著的成果，尤其是在長視頻處理和細粒度時空感知方面表現出色。它能夠處理長達萬幀的視頻，與前代相比，視頻處理長度提升了六倍，使得在長視頻中精準定位目標幀成為可能，實現了高效的視頻檢索。該模型支持通用視頻問答，并能夠完成目標跟蹤、分割等專業視覺任務。

InternVideo2.5

InternVideo2.5的主要功能

超長視頻處理：InternVideo2.5具備處理長達萬幀的視頻的能力，其視頻處理長度較前代提升了六倍（從3000幀到10000幀），能夠在長視頻中精準定位目標幀，提高視頻分析的效率。
細粒度時空感知：該模型能夠準確識別和定位視頻中的物體、場景和動作，并理解細微的時空關系。它支持通用視頻問答，能夠完成目標跟蹤、分割等專業視覺任務，并在復雜場景下識別物體的軌跡和狀態變化，為自動駕駛和監控安防等領域提供精準的視覺支持。
多模態融合：InternVideo2.5將視覺理解與語言處理深度結合，能夠根據視頻內容生成詳盡的描述并回答用戶提問。
專業視覺任務支持：通過任務偏好優化（TPO），InternVideo2.5能夠處理多種專業視覺任務，如目標跟蹤、分割和時間定位，能根據任務需求動態調整模型處理策略，以在不同場景下提供最優的視覺分析能力。
高效預訓練與優化：InternVideo2.5采用漸進式多階段訓練方案，使用超過30萬小時的視頻數據進行預訓練，從而提升模型性能并降低訓練成本。

InternVideo2.5的技術原理

長時豐富上下文建模（LRC）：LRC通過擴展模型的上下文長度和細節感知能力，使InternVideo2.5能夠處理萬幀視頻。其核心在于：
- 視頻長度自適應令牌表示：根據視頻的長度和內容特征動態調整幀采樣策略。例如，短序列（如秒級視頻）采用密樣（每秒15幀），而長序列（如分鐘或小時級視頻）則采用稀疏采樣（每秒1幀），確保能夠有效捕捉不同時間尺度上的信息。
- 分層上下文壓縮（HiCo）：通過分層壓縮機制，減少視頻信號中的時空冗余，同時保留關鍵信息。具體包括：
  - 時空令牌合并：基于語義相似性進行令牌合并，而非簡單的基于位置的池化操作，從而在保留細節的同時顯著減少冗余信息。
  - 多模態上下文整合：在語言模型處理階段，進一步整合壓縮后的視覺令牌，確保視覺與語言信息的深度融合。
任務偏好優化（TPO）：TPO通過將細粒度視覺任務的標注信息轉化為可微分的任務偏好，指導模型學習，使InternVideo2.5能夠處理多種專業視覺任務。具體實現方式包括：
- 任務特定組件集成：在模型中加入任務特定的組件（如時間頭、掩碼適配器等），并通過任務特定數據集進行訓練。
- 視覺概念預訓練：使用大量圖像和視頻文本對進行預訓練，進一步提升模型的視覺理解能力。
漸進式多階段訓練方案：InternVideo2.5采用漸進式多階段訓練方案，逐步提升模型性能：
- 基礎學習階段：進行任務識別指令調整和視頻語言對齊訓練。
- 細粒度感知訓練階段：通過集成任務特定組件和視覺概念預訓練，增強視覺理解能力。
- 綜合優化階段：在混合語料庫上進行多任務訓練和指令調整，優化所有模型組件。
高效分布式系統：為支持大規模視頻數據的訓練和測試，InternVideo2.5開發了基于多模態序列并行的分布式系統。該系統結合了序列和張量的分布式處理，以及動態數據打包技術，顯著提高了訓練效率。