全開源小尺寸簡易視頻理解框架!
原標題:北航推出TinyLLaVA-Video,有限計算資源優于部分7B模型,代碼、模型、訓練數據全開源
文章來源:機器之心
內容字數:4059字
北京航空航天大學開源輕量級視頻理解框架TinyLLaVA-Video
本文介紹了北京航空航天大學研究團隊開源的輕量級視頻理解框架TinyLLaVA-Video。該框架基于TinyLLaVA_Factory項目,旨在降低視頻理解模型的計算資源需求,為資源有限的研究人員提供便利。
1. 項目概述
TinyLLaVA-Video是一個完全開源的項目,公開了模型權重、訓練代碼和數據集。它延續了TinyLLaVA_Factory的模塊化設計,允許用戶靈活替換組件,例如語言模型和視覺編碼器,并自定義訓練策略。這降低了研究門檻,并為輕量級視頻理解模型的創新提供了平臺。
2. 模型架構與訓練
該框架采用Vision Tower+Connector+LLM的常見多模態模型架構,并采用預訓練對齊與監督微調的兩階段訓練策略。所有預訓練模型組件都遵循開源協議,確保實驗的可復現性。訓練數據基于開源的LLaVA-Video-178K和Valley數據集,并經過篩選和過濾,最終得到397k的預訓練數據和491k的監督微調數據,這些數據也已公開于HuggingFace平臺。
3. 長序列信息處理
為了解決長時序視覺序列處理的問題,TinyLLaVA-Video使用簡單的視頻級Resampler作為Connector,減少了輸入到語言模型的Visual Token數量。這使得模型支持靈活的視頻采樣策略,用戶可以根據需求設置不同的視頻采樣幀數。
4. 性能與實驗
盡管模型參數量不超過4B,TinyLLaVA-Video在MLVU、Video-MME等基準測試集上的表現優于同等數據量級的7B+模型。研究團隊還進行了大量的實驗,探索了不同配置(語言模型、視覺編碼器、采樣幀數等)對模型性能的影響,為模型優化提供了實證數據。
5. 總結與展望
TinyLLaVA-Video證明了小尺寸視頻理解模型在計算資源有限的環境下仍具有潛力。該框架的開源和模塊化設計,為資源受限的研究人員提供了寶貴的工具,也為輕量級視頻理解模型的未來發展提供了新的可能性。TinyLLaVA系列項目致力于在有限計算資源下研究小尺寸模型,并堅持完全開源的原則。
6. 資源鏈接
論文地址:https://arxiv.org/abs/2501.15513
Github項目:https://github.com/ZhangXJ199/TinyLLaVA-Video
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺