突破極限:Meta斯坦福全新多模態(tài)Apollo,60分鐘帶你領(lǐng)略7B如何碾壓30B!
原標(biāo)題:Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B
文章來源:新智元
內(nèi)容字?jǐn)?shù):7954字
多模態(tài)大模型在視頻理解中的新突破
Meta與斯坦福大學(xué)的聯(lián)合研究團(tuán)隊(duì)針對多模態(tài)大模型(LMM)在視頻理解中的機(jī)制進(jìn)行了深入探討,提出了一系列創(chuàng)新的模型設(shè)計(jì)和訓(xùn)練方法。研究旨在提升現(xiàn)有視頻問答基準(zhǔn)的效率,并通過推出ApolloBench來解決評估過程中的資源密集和冗余問題。
1. ApolloBench的高效評估
研究團(tuán)隊(duì)開發(fā)了ApolloBench,通過篩選問題并歸類為五大時(shí)態(tài)感知類別,驗(yàn)證其有效性。與現(xiàn)有基準(zhǔn)相比較,ApolloBench的評估速度提高了41倍,同時(shí)保持了高度相關(guān)性,表明其在視頻理解領(lǐng)域的有效性。
2. 模型規(guī)模的一致性
研究發(fā)現(xiàn),約2-4B規(guī)模的模型設(shè)計(jì)決策與更大模型高度相關(guān),稱之為“規(guī)模一致性”。這一發(fā)現(xiàn)使得研究人員能夠在中等規(guī)模的模型上進(jìn)行設(shè)計(jì)決策,并可靠地遷移到更大的模型上,從而減少了擴(kuò)展研究的需求。
3. 視頻采樣和表示
在視頻采樣方面,研究表明fps采樣在訓(xùn)練和推理過程中優(yōu)于均勻采樣。此外,SigLIP-SO400M在單編碼器設(shè)置中的表現(xiàn)優(yōu)于其他編碼器,顯示出視頻編碼器在時(shí)態(tài)感知方面的優(yōu)勢。
4. 視頻token重采樣與集成
研究還探討了token重采樣的重要性,發(fā)現(xiàn)感知重采樣在各項(xiàng)指標(biāo)上均表現(xiàn)優(yōu)越。同時(shí),集成視頻和文本token的策略也對模型的性能產(chǎn)生了顯著影響,特別是在時(shí)間戳的應(yīng)用上。
5. 訓(xùn)練調(diào)度與數(shù)據(jù)組合
研究團(tuán)隊(duì)評估了不同的訓(xùn)練調(diào)度策略,發(fā)現(xiàn)三階段訓(xùn)練效果最佳。此外,混合數(shù)據(jù)的使用,特別是適量的文本數(shù)據(jù),能夠有效提升模型性能,避免災(zāi)難性遺忘。
6. Apollo模型的優(yōu)越表現(xiàn)
Apollo模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色,Apollo-7B模型的性能甚至超過了某些參數(shù)超過30B的模型,顯示出精心設(shè)計(jì)架構(gòu)和訓(xùn)練策略的重要性。
綜上所述,此項(xiàng)研究為視頻理解領(lǐng)域的多模態(tài)大模型提供了新的視角和方法,推動(dòng)了相關(guān)技術(shù)的進(jìn)步與創(chuàng)新。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。