Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B
原標(biāo)題:Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B
文章來源:新智元
內(nèi)容字?jǐn)?shù):7954字
Meta和斯坦福大合發(fā)布Apollo:高效且強大的視頻多模態(tài)大模型
Meta和斯坦福大學(xué)的研究團(tuán)隊合作,對視頻多模態(tài)大模型(LMM)進(jìn)行了全面的研究,取得了顯著成果。他們不僅創(chuàng)建了新的評估基準(zhǔn)ApolloBench,提高了評估效率,還提出了模型設(shè)計的“規(guī)模一致性”概念,并開源了高性能的Apollo模型,在多個基準(zhǔn)測試中取得了領(lǐng)先結(jié)果。
高效的評估基準(zhǔn):ApolloBench
現(xiàn)有的視頻問答基準(zhǔn)存在資源密集和冗余的問題。研究團(tuán)隊針對此問題,創(chuàng)建了ApolloBench。該基準(zhǔn)通過篩選問題,確定了五大時態(tài)感知類別,并手動選擇和驗證了400個問題。ApolloBench的評估速度比現(xiàn)有基準(zhǔn)快41倍,同時與現(xiàn)有基準(zhǔn)高度相關(guān),更能體現(xiàn)視頻感知能力。這使得對視頻LMM的評估更加高效和有效。
規(guī)模一致性:高效的模型設(shè)計
研究發(fā)現(xiàn),中等規(guī)模(約2-4B)模型的設(shè)計決策與更大模型高度相關(guān),他們將此現(xiàn)象稱為“規(guī)模一致性”。這意味著在中等規(guī)模模型和數(shù)據(jù)集上進(jìn)行的設(shè)計決策可以可靠地遷移到更大的模型,這大大減少了模型設(shè)計和擴(kuò)展研究的成本。
高效模型設(shè)計的關(guān)鍵因素
研究團(tuán)隊深入探索了影響LMM設(shè)計效率的關(guān)鍵因素,包括視頻采樣、視頻表示、視頻token重采樣和視頻token集成。實驗結(jié)果表明:fps采樣優(yōu)于均勻采樣;SigLIP-SO400M是最佳單一視頻編碼器,結(jié)合InternVideo2性能更佳;感知器重采樣在token重采樣中表現(xiàn)最佳;在視頻token之間添加文本或?qū)W習(xí)到的token可以提高token集成效率。
高效的多模態(tài)大模型訓(xùn)練
研究團(tuán)隊還探索了高效的訓(xùn)練策略,包括訓(xùn)練調(diào)度器和數(shù)據(jù)組合。三階段訓(xùn)練調(diào)度策略效果最佳;在混合數(shù)據(jù)上訓(xùn)練視覺編碼器,并包含10%-14%的文本數(shù)據(jù),可以有效避免災(zāi)難性遺忘并提升性能;視頻數(shù)據(jù)和圖像數(shù)據(jù)比例應(yīng)略微偏向視頻數(shù)據(jù)。
高性能的Apollo模型
基于以上研究成果,團(tuán)隊開發(fā)了一系列Apollo模型,其中Apollo-3B超越了幾乎所有7B模型,Apollo-7B則是目前7B模型中性能最佳的。Apollo-7B甚至在某些基準(zhǔn)上與參數(shù)超過30B的模型性能相當(dāng),甚至超越,這證明了高效的模型設(shè)計和訓(xùn)練策略的重要性。
總而言之,Meta和斯坦福大學(xué)的研究團(tuán)隊通過創(chuàng)建ApolloBench、提出規(guī)模一致性概念、探索高效模型設(shè)計和訓(xùn)練策略,并開源高性能的Apollo模型,為視頻多模態(tài)大模型的研究和發(fā)展做出了重要貢獻(xiàn)。這項工作不僅推動了視頻理解領(lǐng)域的發(fā)展,也為其他多模態(tài)大模型的研究提供了寶貴的經(jīng)驗和參考。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。