LongCat-Video

LongCat-Video – 美團開源的視頻生成模型

美團LongCat團隊隆重推出其開源力作——LongCat-Video，一款擁有136億參數的視頻生成模型。這款創新模型在多個關鍵領域展現出卓越性能，包括文本到視頻（Text-to-Video）、圖像到視頻（Image-to-Video）以及視頻續寫（Video-Continuation），尤以其高效生成高質量長視頻的能力而備受矚目。

LongCat-Video的精髓所在

LongCat-Video由美團LongCat團隊匠心打造，是一款開源的136億參數視頻生成模型。它在將文本描述轉化為視頻、將靜態圖像擴展為動態影像，以及無縫銜接現有視頻片段等任務上表現非凡。其獨特之處在于能夠高效地產出長度可觀且品質上乘的視頻。通過應用多獎勵強化學習優化（GRPO）技術，LongCat-Video在內部測試與公共基準評估中均取得了令人印象深刻的成績，其表現足以與業界領先的開源視頻生成模型及最新的商業解決方案相媲美。

LongCat-Video的核心功能剖析

長篇視頻創作能力：該模型經過專門的視頻續寫任務預訓練，使其能夠生成長達數分鐘的視頻，且在整個過程中，色彩保持一致，畫面質量絲毫不減。
一體化多任務架構：LongCat-Video巧妙地將文本到視頻、圖像到視頻及視頻續寫等多種功能整合于一個統一的視頻生成框架之下，這意味著用戶僅需一個模型即可應對各類視頻創作需求。
卓越的推理效率：憑借其獨特的粗到細生成策略以及Block Sparse Attention（塊稀疏注意力）技術，LongCat-Video能夠在短短幾分鐘內，便可生成720p分辨率、每秒30幀的流暢視頻。
多維度強化學習優化：借助多獎勵Group Relative Policy Optimization（GRPO）機制，模型在多個維度上得到了精細優化，確保其在內部及公共基準測試中，能與頂尖的開源視頻生成模型乃至最新的商業解決方案保持同等甚至更優的性能水平。

LongCat-Video的技術奧秘

融合統一的架構設計：LongCat-Video采用單一且高度整合的視頻生成框架，將文本到視頻、圖像到視頻和視頻續寫等多元任務有機結合。通過共享模型架構和參數，實現了對不同任務的高效處理，極大提升了模型的通用性。
長視頻生成的核心技術：模型在視頻續寫任務上進行了深度預訓練，并輔以精密的訓練策略與算法。這使得LongCat-Video能夠生成持續數分鐘的超長視頻，同時確保視頻內容的連貫性與卓越的質量穩定性。
高效推理的策略實施：LongCat-Video運用了一種精妙的粗到細生成策略，即首先構建視頻的宏觀骨架，隨后逐步填充并細化各項細節。結合Block Sparse Attention技術，顯著提升了模型在生成高分辨率視頻時的推理效率，從而大幅縮短了視頻的生成時間。
多獎勵強化學習的精進：模型通過多獎勵Group Relative Policy Optimization（GRPO）方法進行優化訓練，旨在文本對齊、視覺質量和連貫性等多個關鍵維度上實現性能飛躍，從而全面提升生成視頻的整體品質。