AIGC動態歡迎閱讀
原標題:今日arXiv最熱NLP大模型論文:北京大學&快手發布統一的圖文視頻生成大模型Video-LaVIT
關鍵字:視頻,模型,標記,圖像,基準
文章來源:夕小瑤科技說
內容字數:6510字
內容摘要:
夕小瑤科技說 原創作者 | 芒果引言:探索視頻與語言模型的新融合隨著多模態大語言模型(LLMs)的新發展,人們越來越關注如何將它們從圖像-文本數據擴展到更具信息量的真實世界視頻。與靜態圖像相比,視頻為有效的大規模預訓練帶來了獨特的挑戰,因為需要對其時空動態進行建模。
針對視頻與語言聯合預訓練的挑戰,文章提出了高效的視頻分解方法,將視頻表示為關鍵幀和時間,并設計分詞器適配LLM,實現視頻、圖像和文本的統一生成預訓練。應用時,生成的標記被恢復為像素空間,用于創建視頻內容。框架表現出對圖像和視頻內容的理解和生成能力,具有競爭力的性能。
論文標題:Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
論文鏈接:https://arxiv.org/pdf/2402.03161.pdf
項目鏈接:https://video-lavit.github.io
視頻理解的挑戰:從靜態圖像到動態視頻的轉變現有的多模態LLMs主要集中在圖像-文本數據上,對于視頻模態的適應性
原文鏈接:今日arXiv最熱NLP大模型論文:北京大學&快手發布統一的圖文視頻生成大模型Video-LaVIT
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189