北航推出TinyLLaVA-Video,有限計(jì)算資源優(yōu)于部分7B模型,代碼、模型、訓(xùn)練數(shù)據(jù)全開源
全開源小尺寸簡易視頻理解框架!

原標(biāo)題:北航推出TinyLLaVA-Video,有限計(jì)算資源優(yōu)于部分7B模型,代碼、模型、訓(xùn)練數(shù)據(jù)全開源
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4059字
北京航空航天大學(xué)開源輕量級視頻理解框架TinyLLaVA-Video
本文介紹了北京航空航天大學(xué)研究團(tuán)隊(duì)開源的輕量級視頻理解框架TinyLLaVA-Video。該框架基于TinyLLaVA_Factory項(xiàng)目,旨在降低視頻理解模型的計(jì)算資源需求,為資源有限的研究人員提供便利。
1. 項(xiàng)目概述
TinyLLaVA-Video是一個完全開源的項(xiàng)目,公開了模型權(quán)重、訓(xùn)練代碼和數(shù)據(jù)集。它延續(xù)了TinyLLaVA_Factory的模塊化設(shè)計(jì),允許用戶靈活替換組件,例如語言模型和視覺編碼器,并自定義訓(xùn)練策略。這降低了研究門檻,并為輕量級視頻理解模型的創(chuàng)新提供了平臺。
2. 模型架構(gòu)與訓(xùn)練
該框架采用Vision Tower+Connector+LLM的常見多模態(tài)模型架構(gòu),并采用預(yù)訓(xùn)練對齊與監(jiān)督微調(diào)的兩階段訓(xùn)練策略。所有預(yù)訓(xùn)練模型組件都遵循開源協(xié)議,確保實(shí)驗(yàn)的可復(fù)現(xiàn)性。訓(xùn)練數(shù)據(jù)基于開源的LLaVA-Video-178K和Valley數(shù)據(jù)集,并經(jīng)過篩選和過濾,最終得到397k的預(yù)訓(xùn)練數(shù)據(jù)和491k的監(jiān)督微調(diào)數(shù)據(jù),這些數(shù)據(jù)也已公開于HuggingFace平臺。
3. 長序列信息處理
為了解決長時序視覺序列處理的問題,TinyLLaVA-Video使用簡單的視頻級Resampler作為Connector,減少了輸入到語言模型的Visual Token數(shù)量。這使得模型支持靈活的視頻采樣策略,用戶可以根據(jù)需求設(shè)置不同的視頻采樣幀數(shù)。
4. 性能與實(shí)驗(yàn)
盡管模型參數(shù)量不超過4B,TinyLLaVA-Video在MLVU、Video-MME等基準(zhǔn)測試集上的表現(xiàn)優(yōu)于同等數(shù)據(jù)量級的7B+模型。研究團(tuán)隊(duì)還進(jìn)行了大量的實(shí)驗(yàn),探索了不同配置(語言模型、視覺編碼器、采樣幀數(shù)等)對模型性能的影響,為模型優(yōu)化提供了實(shí)證數(shù)據(jù)。
5. 總結(jié)與展望
TinyLLaVA-Video證明了小尺寸視頻理解模型在計(jì)算資源有限的環(huán)境下仍具有潛力。該框架的開源和模塊化設(shè)計(jì),為資源受限的研究人員提供了寶貴的工具,也為輕量級視頻理解模型的未來發(fā)展提供了新的可能性。TinyLLaVA系列項(xiàng)目致力于在有限計(jì)算資源下研究小尺寸模型,并堅(jiān)持完全開源的原則。
6. 資源鏈接
論文地址:https://arxiv.org/abs/2501.15513
Github項(xiàng)目:https://github.com/ZhangXJ199/TinyLLaVA-Video
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號