Seaweed-7B

Seaweed-7B – 字節推出的視頻生成模型

Seaweed-7B

Seaweed-7B是什么

Seaweed-7B 是由字節跳動團隊研發的一款先進視頻生成模型，擁有約 70 億個參數。該模型展現了卓越的視頻生成能力，能夠從文本描述、圖像或音頻生成高質量的視頻內容，并支持多種分辨率和時長的設置。它在視頻創作、動畫生成、實時交互等多個領域得到了廣泛應用。同時，Seaweed-7B在設計上極為注重成本效益，通過優化的訓練策略和架構，使得中等規模的模型在性能上與大型模型相媲美，從而有效降低計算成本。

Seaweed-7B的主要功能

文本轉視頻：根據用戶提供的文本描述生成相應的視頻內容，能夠處理復雜的動作和場景。
圖像轉視頻：以圖像作為第一幀，生成與其風格一致的視頻，或指定起始幀和結束幀生成過渡視頻。
音頻驅動的視頻生成：根據音頻輸入生成與之匹配的視頻內容，確保口型和動作的同步。
長鏡頭生成：支持生成最長達 20 秒的單鏡頭視頻，并可通過擴展技術生成最長一分鐘的視頻。
連貫的故事敘述：能夠生成多鏡頭的長視頻，保持場景和鏡頭之間的流暢性。
實時生成：支持在 1280×720 分辨率和 24fps下實時生成視頻。
高分辨率及超分辨率支持：生成高達 1280×720 分辨率的視頻，并可進一步上采樣至 2K QHD 分辨率。
相機控制與世界探索：提供定義軌跡的精確相機控制功能，支持交互式世界探索。
增強的物理一致性：通過計算機生成的合成視頻進行后訓練，以提升視頻生成的物理一致性和3D效果。

Seaweed-7B的技術原理

變分自編碼器（VAE）：將視頻數據壓縮至低維潛在空間，并從中重建原始視頻。采用因果3D卷積架構，實現圖像與視頻的統一編碼，有效避免邊界閃爍現象。同時，通過混合分辨率訓練（如256×256、512×512等）提升高分辨率視頻的重建質量。
擴散變換器（DiT）：在VAE的潛在空間中逐步生成視頻內容，通過去噪過程創造高質量視頻。利用混合流結構結合全注意力與窗口注意力機制，以提高訓練效率和生成質量，并通過多模態旋轉位置編碼（MM-RoPE）增強文本與視頻間位置數據的融合。
多階段訓練策略：從低分辨率圖像逐步過渡至高分辨率視頻，優化GPU資源分配。包括預訓練階段（僅圖像、圖像+視頻）和后訓練階段（監督微調與人類反饋強化學習）。
優化技術：采用多級激活檢查點（MLAC）減少GPU內存占用和計算開銷，融合CUDA內核優化I/O操作，提高訓練和推理效率。擴散蒸餾技術則減少生成所需的函數評估次數（NFE），加速推理過程。
數據處理：通過高質量視頻數據，利用時間分割、空間裁剪和質量過濾等方法進行數據清洗。同時，通過合成視頻數據增強訓練數據的多樣性和物理一致性，并生成詳細的視頻字幕，以提升模型的文本理解能力。