MAGI-1

AI工具2周前更新 AI工具集

6 0 0

MAGI-1 – Sand AI 開源的首個自回歸視頻生成模型

MAGI-1

MAGI-1 是 Sand AI 開源的全球首個自回歸視頻生成大模型，采用先進的自回歸架構，能夠通過逐塊預測生成流暢自然的視頻。其獨特的技術使得支持無限延展的長視頻生成成為可能，且實現了一鏡到底的效果。

MAGI-1是什么

MAGI-1 是 Sand AI 開發的全球首個自回歸視頻生成大模型，憑借自回歸架構，通過逐塊預測視頻序列，能夠生成流暢且自然的視頻。其原生分辨率高達 1440×2568，生成的視頻具備流暢的動作和逼真的細節。同時，MAGI-1 還具備可控生成能力，用戶可以通過分塊提示實現平滑的場景轉換和細粒度的內容控制。

MAGI-1的主要功能

高效視頻生成：MAGI-1 可在短時間內生成高質量的視頻片段，例如生成 5 秒的視頻僅需 3 秒，而生成 1 分鐘的視頻則可以在 1 分鐘內完成。通過分塊生成（每塊 24 幀），逐塊去噪并并行處理，從而顯著提高了生成效率。
高保真輸出：所生成的視頻具備高分辨率（原生 1440×2568），動作流暢且細節真實，滿足多種高質量視頻創作需求。
無限擴展與時間軸控制：支持無限長度擴展，能夠無縫續寫生成連續的長視頻場景，并具備秒級時間軸控制能力，用戶可以通過逐塊提示實現精細化的場景轉換和編輯。
可控生成：MAGI-1 支持平滑的場景過渡、長視距合成及細粒度的文本驅動控制，能夠根據用戶的文本指令生成符合需求的視頻內容。
物理行為預測：在物理行為預測方面表現優異，能夠生成符合物理規律的動作和場景，適合復雜動態場景的生成。
實時部署與靈活推理：支持實時流式視頻生成，適配多種硬件配置，包括單張 RTX 4090 GPU 的部署，降低了使用門檻。

MAGI-1的技術原理

自回歸去噪算法：MAGI-1 采用自回歸去噪的方式生成視頻，將視頻劃分為固定長度的片段（每塊 24 幀），逐塊進行去噪處理。當前一個片段達到一定去噪水平后，便開始生成下一個片段。這種流水線設計最多可同時處理四個片段，大幅提升了生成效率。
基于 Transformer 的 VAE：模型使用基于 Transformer 架構的變分自編碼器（VAE），實現了 8 倍空間壓縮和 4 倍時間壓縮。解碼速度快，具備高競爭力的重建質量。
擴散模型架構：MAGI-1 基于 Diffusion Transformer 構建，融入了多項創新技術，如塊因果注意力、并行注意力塊、QK-Norm、GQA、三明治歸一化、SwiGLU 和 Softcap Modulation 等，提高了大規模訓練的效率和穩定性。
蒸餾算法：MAGI-1 采用一種高效的蒸餾方法，訓練了一個基于速度的模型，支持不同的推理預算。通過執行自一致性約束（將一個大步長等同于兩個小步長），模型能在多個步長范圍內逼近流匹配軌跡，實現高效推理。