突破極限：Meta斯坦福全新多模態(tài)Apollo，60分鐘帶你領(lǐng)略7B如何碾壓30B！

原標(biāo)題：Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B
文章來源：新智元
內(nèi)容字?jǐn)?shù)：7954字

多模態(tài)大模型在視頻理解中的新突破

Meta與斯坦福大學(xué)的聯(lián)合研究團(tuán)隊(duì)針對多模態(tài)大模型（LMM）在視頻理解中的機(jī)制進(jìn)行了深入探討，提出了一系列創(chuàng)新的模型設(shè)計(jì)和訓(xùn)練方法。研究旨在提升現(xiàn)有視頻問答基準(zhǔn)的效率，并通過推出ApolloBench來解決評估過程中的資源密集和冗余問題。

1. ApolloBench的高效評估

研究團(tuán)隊(duì)開發(fā)了ApolloBench，通過篩選問題并歸類為五大時(shí)態(tài)感知類別，驗(yàn)證其有效性。與現(xiàn)有基準(zhǔn)相比較，ApolloBench的評估速度提高了41倍，同時(shí)保持了高度相關(guān)性，表明其在視頻理解領(lǐng)域的有效性。

2. 模型規(guī)模的一致性

研究發(fā)現(xiàn)，約2-4B規(guī)模的模型設(shè)計(jì)決策與更大模型高度相關(guān)，稱之為“規(guī)模一致性”。這一發(fā)現(xiàn)使得研究人員能夠在中等規(guī)模的模型上進(jìn)行設(shè)計(jì)決策，并可靠地遷移到更大的模型上，從而減少了擴(kuò)展研究的需求。

3. 視頻采樣和表示

在視頻采樣方面，研究表明fps采樣在訓(xùn)練和推理過程中優(yōu)于均勻采樣。此外，SigLIP-SO400M在單編碼器設(shè)置中的表現(xiàn)優(yōu)于其他編碼器，顯示出視頻編碼器在時(shí)態(tài)感知方面的優(yōu)勢。

4. 視頻token重采樣與集成

研究還探討了token重采樣的重要性，發(fā)現(xiàn)感知重采樣在各項(xiàng)指標(biāo)上均表現(xiàn)優(yōu)越。同時(shí)，集成視頻和文本token的策略也對模型的性能產(chǎn)生了顯著影響，特別是在時(shí)間戳的應(yīng)用上。

5. 訓(xùn)練調(diào)度與數(shù)據(jù)組合

研究團(tuán)隊(duì)評估了不同的訓(xùn)練調(diào)度策略，發(fā)現(xiàn)三階段訓(xùn)練效果最佳。此外，混合數(shù)據(jù)的使用，特別是適量的文本數(shù)據(jù)，能夠有效提升模型性能，避免災(zāi)難性遺忘。

6. Apollo模型的優(yōu)越表現(xiàn)

Apollo模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色，Apollo-7B模型的性能甚至超過了某些參數(shù)超過30B的模型，顯示出精心設(shè)計(jì)架構(gòu)和訓(xùn)練策略的重要性。

綜上所述，此項(xiàng)研究為視頻理解領(lǐng)域的多模態(tài)大模型提供了新的視角和方法，推動(dòng)了相關(guān)技術(shù)的進(jìn)步與創(chuàng)新。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時(shí)代。

閱讀原文

# AIGC動(dòng)態(tài)# 30B參數(shù)# 7B參數(shù)# Meta斯坦福 # 多模態(tài)模型 # 性能提升

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

突破極限：Meta斯坦福全新多模態(tài)Apollo，60分鐘帶你領(lǐng)略7B如何碾壓30B！

多模態(tài)大模型在視頻理解中的新突破

1. ApolloBench的高效評估

2. 模型規(guī)模的一致性

3. 視頻采樣和表示

4. 視頻token重采樣與集成

5. 訓(xùn)練調(diào)度與數(shù)據(jù)組合

6. Apollo模型的優(yōu)越表現(xiàn)

聯(lián)系作者

單卡 A6000 一鍵啟動(dòng) AlphaFold3 教程上線！360 度運(yùn)動(dòng)捕捉數(shù)據(jù)集發(fā)布，含超 7 萬個(gè)視頻、50 種實(shí)體對象

從自動(dòng)駕駛到AIGC游戲：圖森未來陳默的轉(zhuǎn)型之路與IP戰(zhàn)略揭秘

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)