今日arXiv最熱NLP大模型論文：北京大學&快手發布統一的圖文視頻生成大模型Video-LaVIT

AIGC動態2年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：今日arXiv最熱NLP大模型論文：北京大學&快手發布統一的圖文視頻生成大模型Video-LaVIT
關鍵字：視頻,模型,標記,圖像,基準
文章來源：夕小瑤科技說
內容字數：6510字

內容摘要：

夕小瑤科技說原創作者 | 芒果引言：探索視頻與語言模型的新融合隨著多模態大語言模型（LLMs）的新發展，人們越來越關注如何將它們從圖像-文本數據擴展到更具信息量的真實世界視頻。與靜態圖像相比，視頻為有效的大規模預訓練帶來了獨特的挑戰，因為需要對其時空動態進行建模。
針對視頻與語言聯合預訓練的挑戰，文章提出了高效的視頻分解方法，將視頻表示為關鍵幀和時間，并設計分詞器適配LLM，實現視頻、圖像和文本的統一生成預訓練。應用時，生成的標記被恢復為像素空間，用于創建視頻內容。框架表現出對圖像和視頻內容的理解和生成能力，具有競爭力的性能。
論文標題:Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
論文鏈接：https://arxiv.org/pdf/2402.03161.pdf
項目鏈接：https://video-lavit.github.io
視頻理解的挑戰：從靜態圖像到動態視頻的轉變現有的多模態LLMs主要集中在圖像-文本數據上，對于視頻模態的適應性

原文鏈接：今日arXiv最熱NLP大模型論文：北京大學&快手發布統一的圖文視頻生成大模型Video-LaVIT

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文