原標題:Meta斯坦福全新多模態Apollo,60分鐘視頻輕松理解!7B性能超越30B
文章來源:新智元
內容字數:7954字
Meta和斯坦福大合發布Apollo:高效且強大的視頻多模態大模型
Meta和斯坦福大學的研究團隊合作,對視頻多模態大模型(LMM)進行了全面的研究,取得了顯著成果。他們不僅創建了新的評估基準ApolloBench,提高了評估效率,還提出了模型設計的“規模一致性”概念,并開源了高性能的Apollo模型,在多個基準測試中取得了領先結果。
高效的評估基準:ApolloBench
現有的視頻問答基準存在資源密集和冗余的問題。研究團隊針對此問題,創建了ApolloBench。該基準通過篩選問題,確定了五大時態感知類別,并手動選擇和驗證了400個問題。ApolloBench的評估速度比現有基準快41倍,同時與現有基準高度相關,更能體現視頻感知能力。這使得對視頻LMM的評估更加高效和有效。
規模一致性:高效的模型設計
研究發現,中等規模(約2-4B)模型的設計決策與更大模型高度相關,他們將此現象稱為“規模一致性”。這意味著在中等規模模型和數據集上進行的設計決策可以可靠地遷移到更大的模型,這大大減少了模型設計和擴展研究的成本。
高效模型設計的關鍵因素
研究團隊深入探索了影響LMM設計效率的關鍵因素,包括視頻采樣、視頻表示、視頻token重采樣和視頻token集成。實驗結果表明:fps采樣優于均勻采樣;SigLIP-SO400M是最佳單一視頻編碼器,結合InternVideo2性能更佳;感知器重采樣在token重采樣中表現最佳;在視頻token之間添加文本或學習到的token可以提高token集成效率。
高效的多模態大模型訓練
研究團隊還探索了高效的訓練策略,包括訓練調度器和數據組合。三階段訓練調度策略效果最佳;在混合數據上訓練視覺編碼器,并包含10%-14%的文本數據,可以有效避免災難性遺忘并提升性能;視頻數據和圖像數據比例應略微偏向視頻數據。
高性能的Apollo模型
基于以上研究成果,團隊開發了一系列Apollo模型,其中Apollo-3B超越了幾乎所有7B模型,Apollo-7B則是目前7B模型中性能最佳的。Apollo-7B甚至在某些基準上與參數超過30B的模型性能相當,甚至超越,這證明了高效的模型設計和訓練策略的重要性。
總而言之,Meta和斯坦福大學的研究團隊通過創建ApolloBench、提出規模一致性概念、探索高效模型設計和訓練策略,并開源高性能的Apollo模型,為視頻多模態大模型的研究和發展做出了重要貢獻。這項工作不僅推動了視頻理解領域的發展,也為其他多模態大模型的研究提供了寶貴的經驗和參考。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。