用AI短視頻「反哺」長視頻理解,騰訊MovieLLM框架瞄準(zhǔn)電影級連續(xù)幀生成
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:用AI短視頻「反哺」長視頻理解,騰訊MovieLLM框架瞄準(zhǔn)電影級連續(xù)幀生成
關(guān)鍵字:騰訊,模型,視頻,數(shù)據(jù),電影
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3633字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部在視頻理解這一領(lǐng)域,盡管多模態(tài)模型在短視頻分析上取得了突破性進(jìn)展,展現(xiàn)出了較強(qiáng)的理解能力,但當(dāng)它們面對電影級別的長視頻時(shí),卻顯得力不從心。因而,長視頻的分析與理解,特別是對于長達(dá)數(shù)小時(shí)電影內(nèi)容的理解,成為了當(dāng)前的一個(gè)巨大挑戰(zhàn)。
究其原因,導(dǎo)致模型理解長視頻困難的一個(gè)主要原因是缺乏高質(zhì)量、多樣化的長視頻數(shù)據(jù)資源,而且收集和注釋這些數(shù)據(jù)需要龐大的工作量。
面對這樣的難題, 騰訊和復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了 MovieLLM,一個(gè)創(chuàng)新性的 AI 生成框架。MovieLLM 采用了創(chuàng)新性的方法,不僅可以生成高質(zhì)量、多樣化的視頻數(shù)據(jù),而且能自動(dòng)生成大量與之相關(guān)的問答數(shù)據(jù)集,極大地豐富了數(shù)據(jù)的維度和深度,同時(shí)整個(gè)自動(dòng)化的過程也極大地減少了人力的投入。論文地址:https://arxiv.org/abs/2403.01422
主頁地址:https://deaddawn.github.io/MovieLLM/
這一突破性的進(jìn)展不僅提高了模型對復(fù)雜視頻敘事的理解能力,還增強(qiáng)了模型針對長達(dá)數(shù)小時(shí)電影內(nèi)容的分析能力,克服了現(xiàn)有數(shù)據(jù)集在稀缺性和偏差方面的限制,為超長視頻的理解提供了一
原文鏈接:用AI短視頻「反哺」長視頻理解,騰訊MovieLLM框架瞄準(zhǔn)電影級連續(xù)幀生成
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺