還有2B的圖像理解模型
原標題:達摩院開源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩
文章來源:量子位
內容字數:6118字
達摩院發布7B參數視頻理解模型VideoLLaMA 3:圖像為中心,性能超越基線
達摩院最新發布的7B參數視頻理解模型VideoLLaMA 3,在通用視頻理解、時間推理和長視頻理解等方面取得了顯著成果,超越了多數基線模型。更值得關注的是,其2B參數版本在圖像理解方面也表現出色。
1. 核心優勢:圖像為中心的多模態模型
VideoLLaMA 3的核心創新在于其“圖像為中心”的設計理念。該理念貫穿模型架構和訓練過程,通過高質量的圖像文本數據為視頻理解奠定堅實基礎。僅使用3M視頻文本數據,就實現了全面超越同參數量開源模型的視頻理解能力。這種高效的訓練方式,得益于其獨特的訓練范式,主要包含四個關鍵內容:
視覺編碼器適配: 能夠處理動態分辨率圖像,并利用不同場景圖像提升性能,捕捉精細視覺細節。
視覺語言對齊: 利用豐富圖像文本數據,增強多模態理解能力,并通過數據增強提升空間推理能力。
多任務微調: 利用圖像文本問答數據和視頻字幕數據微調模型,提升其遵循自然語言指令和多模態理解能力。
視頻微調: 增強模型視頻理解和問答能力,訓練數據包含多種視頻及圖像、文本數據。
2. 技術創新:高效的模型架構
VideoLLaMA 3的模型架構包含兩個關鍵創新:
任意分辨率視覺標記化(AVT):突破傳統固定分辨率限制,采用2D-RoPE替換絕對位置嵌入,能夠處理不同分辨率圖像和視頻,保留更多細節。
差分幀剪枝器(DiffFP):針對視頻數據冗余問題,通過比較相鄰幀像素空間的1-范數距離,修剪冗余視頻標記,提高視頻處理效率,減少計算需求。
3. 高質量數據:精細的數據處理流程
VideoLLaMA 3的成功也離不開高質量數據的支持。團隊構建了包含700萬圖像-字幕對的VL3Syn7M數據集,并進行了多步驟的數據清洗和增強,包括長寬比過濾、美學評分過濾、文本-圖像相似度計算、視覺特征聚類和圖像重新標注等。此外,團隊還采用了多階段數據混合策略,為模型提供豐富多樣的學習場景。
4. 實際應用及效果展示
VideoLLaMA 3已經在HuggingFace上提供圖像和視頻理解的demo。用戶只需上傳圖片或視頻,并提出問題,即可獲得精準的回答。例如,針對《蒙娜麗莎的微笑》的提問,模型能夠給出其歷史影響和藝術意義的詳細闡述;針對視頻中熊吃壽司的場景,模型能夠準確識別其不尋常之處。
5. 總結
VideoLLaMA 3憑借其圖像為中心的設計理念、高效的模型架構和高質量的數據,在視頻理解領域取得了顯著進展。其在HuggingFace上的公開demo也方便了用戶體驗和應用,為多模態模型的發展提供了新的方向。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破