北航推出TinyLLaVA-Video，有限計算資源優于部分7B模型，代碼、模型、訓練數據全開源

全開源小尺寸簡易視頻理解框架！

原標題：北航推出TinyLLaVA-Video，有限計算資源優于部分7B模型，代碼、模型、訓練數據全開源
文章來源：機器之心
內容字數：4059字

北京航空航天大學開源輕量級視頻理解框架TinyLLaVA-Video

本文介紹了北京航空航天大學研究團隊開源的輕量級視頻理解框架TinyLLaVA-Video。該框架基于TinyLLaVA_Factory項目，旨在降低視頻理解模型的計算資源需求，為資源有限的研究人員提供便利。

1. 項目概述

TinyLLaVA-Video是一個完全開源的項目，公開了模型權重、訓練代碼和數據集。它延續了TinyLLaVA_Factory的模塊化設計，允許用戶靈活替換組件，例如語言模型和視覺編碼器，并自定義訓練策略。這降低了研究門檻，并為輕量級視頻理解模型的創新提供了平臺。

2. 模型架構與訓練

該框架采用Vision Tower+Connector+LLM的常見多模態模型架構，并采用預訓練對齊與監督微調的兩階段訓練策略。所有預訓練模型組件都遵循開源協議，確保實驗的可復現性。訓練數據基于開源的LLaVA-Video-178K和Valley數據集，并經過篩選和過濾，最終得到397k的預訓練數據和491k的監督微調數據，這些數據也已公開于HuggingFace平臺。

3. 長序列信息處理

為了解決長時序視覺序列處理的問題，TinyLLaVA-Video使用簡單的視頻級Resampler作為Connector，減少了輸入到語言模型的Visual Token數量。這使得模型支持靈活的視頻采樣策略，用戶可以根據需求設置不同的視頻采樣幀數。

4. 性能與實驗

盡管模型參數量不超過4B，TinyLLaVA-Video在MLVU、Video-MME等基準測試集上的表現優于同等數據量級的7B+模型。研究團隊還進行了大量的實驗，探索了不同配置（語言模型、視覺編碼器、采樣幀數等）對模型性能的影響，為模型優化提供了實證數據。

5. 總結與展望

TinyLLaVA-Video證明了小尺寸視頻理解模型在計算資源有限的環境下仍具有潛力。該框架的開源和模塊化設計，為資源受限的研究人員提供了寶貴的工具，也為輕量級視頻理解模型的未來發展提供了新的可能性。TinyLLaVA系列項目致力于在有限計算資源下研究小尺寸模型，并堅持完全開源的原則。

6. 資源鏈接

論文地址：https://arxiv.org/abs/2501.15513

Github項目：https://github.com/ZhangXJ199/TinyLLaVA-Video

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # TinyLLaVA # 低資源AI # 開源視頻模型 # 有限計算資源AI # 輕量級視頻理解

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

北航推出TinyLLaVA-Video，有限計算資源優于部分7B模型，代碼、模型、訓練數據全開源

全開源小尺寸簡易視頻理解框架！

北京航空航天大學開源輕量級視頻理解框架TinyLLaVA-Video

1. 項目概述

2. 模型架構與訓練

3. 長序列信息處理

4. 性能與實驗

5. 總結與展望

6. 資源鏈接

聯系作者

推理時也能做偏好優化，無需額外重訓練，來自上海AI Lab港中文等

“首席炒作官”Altman “碰瓷”摩爾定律引社區不滿，1400萬美元廣告被批“都能訓練3個DeepSeek V3了！”

相關文章

暫無評論

ChatGPT

玩虛擬模特？