Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B

原標(biāo)題：Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B
文章來源：新智元
內(nèi)容字?jǐn)?shù)：7954字

Meta和斯坦福大合發(fā)布Apollo：高效且強大的視頻多模態(tài)大模型

Meta和斯坦福大學(xué)的研究團(tuán)隊合作，對視頻多模態(tài)大模型（LMM）進(jìn)行了全面的研究，取得了顯著成果。他們不僅創(chuàng)建了新的評估基準(zhǔn)ApolloBench，提高了評估效率，還提出了模型設(shè)計的“規(guī)模一致性”概念，并開源了高性能的Apollo模型，在多個基準(zhǔn)測試中取得了領(lǐng)先結(jié)果。

高效的評估基準(zhǔn)：ApolloBench
現(xiàn)有的視頻問答基準(zhǔn)存在資源密集和冗余的問題。研究團(tuán)隊針對此問題，創(chuàng)建了ApolloBench。該基準(zhǔn)通過篩選問題，確定了五大時態(tài)感知類別，并手動選擇和驗證了400個問題。ApolloBench的評估速度比現(xiàn)有基準(zhǔn)快41倍，同時與現(xiàn)有基準(zhǔn)高度相關(guān)，更能體現(xiàn)視頻感知能力。這使得對視頻LMM的評估更加高效和有效。
規(guī)模一致性：高效的模型設(shè)計
研究發(fā)現(xiàn)，中等規(guī)模（約2-4B）模型的設(shè)計決策與更大模型高度相關(guān)，他們將此現(xiàn)象稱為“規(guī)模一致性”。這意味著在中等規(guī)模模型和數(shù)據(jù)集上進(jìn)行的設(shè)計決策可以可靠地遷移到更大的模型，這大大減少了模型設(shè)計和擴(kuò)展研究的成本。
高效模型設(shè)計的關(guān)鍵因素
研究團(tuán)隊深入探索了影響LMM設(shè)計效率的關(guān)鍵因素，包括視頻采樣、視頻表示、視頻token重采樣和視頻token集成。實驗結(jié)果表明：fps采樣優(yōu)于均勻采樣；SigLIP-SO400M是最佳單一視頻編碼器，結(jié)合InternVideo2性能更佳；感知器重采樣在token重采樣中表現(xiàn)最佳；在視頻token之間添加文本或?qū)W習(xí)到的token可以提高token集成效率。
高效的多模態(tài)大模型訓(xùn)練
研究團(tuán)隊還探索了高效的訓(xùn)練策略，包括訓(xùn)練調(diào)度器和數(shù)據(jù)組合。三階段訓(xùn)練調(diào)度策略效果最佳；在混合數(shù)據(jù)上訓(xùn)練視覺編碼器，并包含10%-14%的文本數(shù)據(jù)，可以有效避免災(zāi)難性遺忘并提升性能；視頻數(shù)據(jù)和圖像數(shù)據(jù)比例應(yīng)略微偏向視頻數(shù)據(jù)。
高性能的Apollo模型
基于以上研究成果，團(tuán)隊開發(fā)了一系列Apollo模型，其中Apollo-3B超越了幾乎所有7B模型，Apollo-7B則是目前7B模型中性能最佳的。Apollo-7B甚至在某些基準(zhǔn)上與參數(shù)超過30B的模型性能相當(dāng)，甚至超越，這證明了高效的模型設(shè)計和訓(xùn)練策略的重要性。

總而言之，Meta和斯坦福大學(xué)的研究團(tuán)隊通過創(chuàng)建ApolloBench、提出規(guī)模一致性概念、探索高效模型設(shè)計和訓(xùn)練策略，并開源高性能的Apollo模型，為視頻多模態(tài)大模型的研究和發(fā)展做出了重要貢獻(xiàn)。這項工作不僅推動了視頻理解領(lǐng)域的發(fā)展，也為其他多模態(tài)大模型的研究提供了寶貴的經(jīng)驗和參考。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時代。

閱讀原文

# AIGC動態(tài)# 7B參數(shù)模型超越30B # Apollo 7B # 低參數(shù)大模型 # 參數(shù)效率 # 多模態(tài)大模型性能突破

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

Meta斯坦福全新多模態(tài)Apollo，60分鐘視頻輕松理解！7B性能超越30B

Meta和斯坦福大合發(fā)布Apollo：高效且強大的視頻多模態(tài)大模型

高效的評估基準(zhǔn)：ApolloBench

規(guī)模一致性：高效的模型設(shè)計

高效模型設(shè)計的關(guān)鍵因素

高效的多模態(tài)大模型訓(xùn)練

高性能的Apollo模型

聯(lián)系作者

單卡 A6000 一鍵啟動 AlphaFold3 教程上線！360 度運動捕捉數(shù)據(jù)集發(fā)布，含超 7 萬個視頻、50 種實體對象

從自動駕駛到AIGC游戲：圖森未來陳默的轉(zhuǎn)型之路與IP戰(zhàn)略揭秘

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點