AIGC動態歡迎閱讀
原標題:給視頻模型安上快慢兩只眼睛,蘋果免訓練新方法秒了一切SOTA
關鍵字:視頻,快手,慢速,模型,路徑
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:佳琪自從 Sora 發布以來,AI 視頻生成領域變得更加「熱鬧」了起來。過去幾個月,我們見證了即夢、Runway Gen-3、Luma AI、快手可靈輪番炸場。
和以往一眼就能識破是 AI 生成的模型不太一樣,這批視頻大模型可能是我們所見過的「最好的一屆」。
然而,視頻大語言模型(LLM)驚艷表現的背后離不開龐大且經過精細標注的視頻數據集,這需要花費相當高的成本。近期研究領域也涌現了一批無需額外訓練的創新方法:采用訓練好的圖像大語言模型,直接用于視頻任務的處理,這樣就繞開了「昂貴」的訓練過程。
此外,現有大多視頻 LLM 存在兩個主要缺點:(1)它們只能處理有限幀數的視頻輸入,這使得模型難以捕捉視頻中細微的空間和時間內容;(2)它們缺少時間建模設計,而是簡單地將視頻特征輸入到 LLM 中,完全依賴于 LLM 對的建模能力。
針對以上問題,蘋果研究人員提出了 SlowFast-LLaVA(簡稱 SF-LLaVA)。這一模型基于字節團隊開發的 LLaVA-NeXT 架構,無需額外微調,開箱即用。研究團隊受在動作識別領域大獲成功的雙流網絡的啟發,為視頻 LLM 設計了
原文鏈接:給視頻模型安上快慢兩只眼睛,蘋果免訓練新方法秒了一切SOTA
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...