突破極限:Meta斯坦福全新多模態(tài)Apollo,60分鐘帶你領(lǐng)略7B如何碾壓30B!

原標題:Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B
文章來源:新智元
內(nèi)容字數(shù):7954字
多模態(tài)大模型在視頻理解中的新突破
Meta與斯坦福大學的聯(lián)合研究團隊針對多模態(tài)大模型(LMM)在視頻理解中的機制進行了深入探討,提出了一系列創(chuàng)新的模型設(shè)計和訓練方法。研究旨在提升現(xiàn)有視頻問答基準的效率,并通過推出ApolloBench來解決評估過程中的資源密集和冗余問題。
1. ApolloBench的高效評估
研究團隊開發(fā)了ApolloBench,通過篩選問題并歸類為五大時態(tài)感知類別,驗證其有效性。與現(xiàn)有基準相比較,ApolloBench的評估速度提高了41倍,同時保持了高度相關(guān)性,表明其在視頻理解領(lǐng)域的有效性。
2. 模型規(guī)模的一致性
研究發(fā)現(xiàn),約2-4B規(guī)模的模型設(shè)計決策與更大模型高度相關(guān),稱之為“規(guī)模一致性”。這一發(fā)現(xiàn)使得研究人員能夠在中等規(guī)模的模型上進行設(shè)計決策,并可靠地遷移到更大的模型上,從而減少了擴展研究的需求。
3. 視頻采樣和表示
在視頻采樣方面,研究表明fps采樣在訓練和推理過程中優(yōu)于均勻采樣。此外,SigLIP-SO400M在單編碼器設(shè)置中的表現(xiàn)優(yōu)于其他編碼器,顯示出視頻編碼器在時態(tài)感知方面的優(yōu)勢。
4. 視頻token重采樣與集成
研究還探討了token重采樣的重要性,發(fā)現(xiàn)感知重采樣在各項指標上均表現(xiàn)優(yōu)越。同時,集成視頻和文本token的策略也對模型的性能產(chǎn)生了顯著影響,特別是在時間戳的應用上。
5. 訓練調(diào)度與數(shù)據(jù)組合
研究團隊評估了不同的訓練調(diào)度策略,發(fā)現(xiàn)三階段訓練效果最佳。此外,混合數(shù)據(jù)的使用,特別是適量的文本數(shù)據(jù),能夠有效提升模型性能,避免災難性遺忘。
6. Apollo模型的優(yōu)越表現(xiàn)
Apollo模型在多個基準數(shù)據(jù)集上表現(xiàn)出色,Apollo-7B模型的性能甚至超過了某些參數(shù)超過30B的模型,顯示出精心設(shè)計架構(gòu)和訓練策略的重要性。
綜上所述,此項研究為視頻理解領(lǐng)域的多模態(tài)大模型提供了新的視角和方法,推動了相關(guān)技術(shù)的進步與創(chuàng)新。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號