用AI短視頻「反哺」長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：用AI短視頻「反哺」長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成
關鍵字：騰訊,模型,視頻,數據,電影
文章來源：機器之心
內容字數：3633字

內容摘要：

機器之心專欄
機器之心編輯部在視頻理解這一領域，盡管多模態模型在短視頻分析上取得了突破性進展，展現出了較強的理解能力，但當它們面對電影級別的長視頻時，卻顯得力不從心。因而，長視頻的分析與理解，特別是對于長達數小時電影內容的理解，成為了當前的一個巨大挑戰。
究其原因，導致模型理解長視頻困難的一個主要原因是缺乏高質量、多樣化的長視頻數據資源，而且收集和注釋這些數據需要龐大的工作量。
面對這樣的難題，騰訊和復旦大學的研究團隊提出了 MovieLLM，一個創新性的 AI 生成框架。MovieLLM 采用了創新性的方法，不僅可以生成高質量、多樣化的視頻數據，而且能自動生成大量與之相關的問答數據集，極大地豐富了數據的維度和深度，同時整個自動化的過程也極大地減少了人力的投入。論文地址：https://arxiv.org/abs/2403.01422
主頁地址：https://deaddawn.github.io/MovieLLM/
這一突破性的進展不僅提高了模型對復雜視頻敘事的理解能力，還增強了模型針對長達數小時電影內容的分析能力，克服了現有數據集在稀缺性和偏差方面的限制，為超長視頻的理解提供了一

原文鏈接：用AI短視頻「反哺」長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成