給視頻模型安上快慢兩只眼睛,蘋果免訓練新方法秒了一切SOTA
AIGC動態(tài)歡迎閱讀
原標題:給視頻模型安上快慢兩只眼睛,蘋果免訓練新方法秒了一切SOTA
關(guān)鍵字:視頻,快手,慢速,模型,路徑
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
編輯:佳琪自從 Sora 發(fā)布以來,AI 視頻生成領(lǐng)域變得更加「熱鬧」了起來。過去幾個月,我們見證了即夢、Runway Gen-3、Luma AI、快手可靈輪番炸場。
和以往一眼就能識破是 AI 生成的模型不太一樣,這批視頻大模型可能是我們所見過的「最好的一屆」。
然而,視頻大語言模型(LLM)驚艷表現(xiàn)的背后離不開龐大且經(jīng)過精細標注的視頻數(shù)據(jù)集,這需要花費相當高的成本。近期研究領(lǐng)域也涌現(xiàn)了一批無需額外訓練的創(chuàng)新方法:采用訓練好的圖像大語言模型,直接用于視頻任務(wù)的處理,這樣就繞開了「昂貴」的訓練過程。
此外,現(xiàn)有大多視頻 LLM 存在兩個主要缺點:(1)它們只能處理有限幀數(shù)的視頻輸入,這使得模型難以捕捉視頻中細微的空間和時間內(nèi)容;(2)它們?nèi)鄙贂r間建模設(shè)計,而是簡單地將視頻特征輸入到 LLM 中,完全依賴于 LLM 對的建模能力。
針對以上問題,蘋果研究人員提出了 SlowFast-LLaVA(簡稱 SF-LLaVA)。這一模型基于字節(jié)團隊開發(fā)的 LLaVA-NeXT 架構(gòu),無需額外微調(diào),開箱即用。研究團隊受在動作識別領(lǐng)域大獲成功的雙流網(wǎng)絡(luò)的啟發(fā),為視頻 LLM 設(shè)計了
原文鏈接:給視頻模型安上快慢兩只眼睛,蘋果免訓練新方法秒了一切SOTA
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: