<rt id="8mw88"></rt>

達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

AIGC動態5個月前發布量子位

322 0 0

還有2B的圖像理解模型

原標題：達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩
文章來源：量子位
內容字數：6118字

達摩院發布7B參數視頻理解模型VideoLLaMA 3：圖像為中心，性能超越基線

達摩院最新發布的7B參數視頻理解模型VideoLLaMA 3，在通用視頻理解、時間推理和長視頻理解等方面取得了顯著成果，超越了多數基線模型。更值得關注的是，其2B參數版本在圖像理解方面也表現出色。

1. 核心優勢：圖像為中心的多模態模型

VideoLLaMA 3的核心創新在于其“圖像為中心”的設計理念。該理念貫穿模型架構和訓練過程，通過高質量的圖像文本數據為視頻理解奠定堅實基礎。僅使用3M視頻文本數據，就實現了全面超越同參數量開源模型的視頻理解能力。這種高效的訓練方式，得益于其獨特的訓練范式，主要包含四個關鍵內容：

視覺編碼器適配： 能夠處理動態分辨率圖像，并利用不同場景圖像提升性能，捕捉精細視覺細節。
視覺語言對齊： 利用豐富圖像文本數據，增強多模態理解能力，并通過數據增強提升空間推理能力。
多任務微調： 利用圖像文本問答數據和視頻字幕數據微調模型，提升其遵循自然語言指令和多模態理解能力。
視頻微調： 增強模型視頻理解和問答能力，訓練數據包含多種視頻及圖像、文本數據。

2. 技術創新：高效的模型架構

VideoLLaMA 3的模型架構包含兩個關鍵創新：

任意分辨率視覺標記化(AVT)：突破傳統固定分辨率限制，采用2D-RoPE替換絕對位置嵌入，能夠處理不同分辨率圖像和視頻，保留更多細節。
差分幀剪枝器(DiffFP)：針對視頻數據冗余問題，通過比較相鄰幀像素空間的1-范數距離，修剪冗余視頻標記，提高視頻處理效率，減少計算需求。

3. 高質量數據：精細的數據處理流程

VideoLLaMA 3的成功也離不開高質量數據的支持。團隊構建了包含700萬圖像-字幕對的VL3Syn7M數據集，并進行了多步驟的數據清洗和增強，包括長寬比過濾、美學評分過濾、文本-圖像相似度計算、視覺特征聚類和圖像重新標注等。此外，團隊還采用了多階段數據混合策略，為模型提供豐富多樣的學習場景。

4. 實際應用及效果展示

VideoLLaMA 3已經在HuggingFace上提供圖像和視頻理解的demo。用戶只需上傳圖片或視頻，并提出問題，即可獲得精準的回答。例如，針對《蒙娜麗莎的微笑》的提問，模型能夠給出其歷史影響和藝術意義的詳細闡述；針對視頻中熊吃壽司的場景，模型能夠準確識別其不尋常之處。

5. 總結

VideoLLaMA 3憑借其圖像為中心的設計理念、高效的模型架構和高質量的數據，在視頻理解領域取得了顯著進展。其在HuggingFace上的公開demo也方便了用戶體驗和應用，為多模態模型的發展提供了新的方向。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

Warning: Undefined variable $sitetitle in /www/wwwroot/www.futurefh.com/wp-content/themes/OneNav-openi/inc/functions/io-single-post.php on line 91

Warning: Undefined variable $a_class in /www/wwwroot/www.futurefh.com/wp-content/themes/OneNav-openi/inc/functions/io-single-post.php on line 91
閱讀原文