<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Open-Sora

        AI工具6個月前發布 AI工具集
        922 0 0

        Open-Sora是一款由Colossal-AI團隊開發和開源的視頻生成模型,旨在復現OpenAI的Sora視頻生成產品。該模型基于Diffusion Transformer(DiT)架構,通過三個訓練階段——大規模圖像預訓練、大規模視頻預訓練以及高質量視頻數據微調,能夠生成與文本描述高度一致的視頻內容。

        Open-Sora是什么

        Open-Sora是Colossal-AI團隊推出的開源視頻生成模型,目標在于復現OpenAI的Sora視頻生成技術。該模型利用DiT架構,經過三個階段的訓練:大規模圖像預訓練、大規模視頻預訓練和高質量視頻數據微調,從而實現生成與輸入文本描述相符的視頻內容。作為一項開源解決方案,Open-Sora涵蓋了視頻生成模型訓練的全流程,包括數據處理、訓練細節和模型檢查點,供所有對文本生成視頻技術感興趣的用戶免費學習和使用。

        Open-Sora

        Open-Sora的官網入口

        Open-Sora的模型架構

        Open-Sora采用當前流行的Diffusion Transformer(DiT)架構,基于華為開源的PixArt-α高質量文本到圖像生成模型,并通過添加時間注意力層來擴展至視頻生成。具體設計如下:
        Open-Sora

        核心組件

        • 預訓練的VAE(變分自編碼器):VAE組件用于數據壓縮,將輸入的視頻數據映射到潛在空間的低維表示。在Open-Sora中,VAE的編碼器在訓練時壓縮視頻數據,而在推理階段,則從潛在空間中采樣高斯噪聲生成視頻。
        • 文本編碼器:該組件負責將文本提示(如描述視頻內容的句子)轉換為文本嵌入,這些嵌入隨后與視頻數據結合,確保生成的視頻與文本描述相符。
        • STDiT(空間時間擴散變換器):這是Open-Sora的核心組件,利用空間-時間注意力機制的DiT模型。STDiT通過串聯二維空間注意力模塊與一維時間注意力模塊來建模視頻數據中的時序關系,同時交叉注意力模塊用于對齊文本的語義信息。

        架構設計

        • 空間-時間注意力機制:STDiT模型的每一層包含空間和時間注意力模塊,空間注意力模塊處理視頻幀的二維特征,而時間注意力模塊則處理幀間的時序關系。這種設計使得模型能夠有效處理視頻數據的空間和時間維度。
        • 交叉注意力:在時間注意力模塊之后,交叉注意力模塊用于將文本嵌入與視頻特征融合,確保生成的視頻內容與文本描述相匹配。
        • 訓練與推理流程:在訓練階段,VAE編碼器將視頻數據壓縮,并與文本嵌入一起訓練STDiT模型。在推理階段,從VAE潛在空間中采樣噪聲,與文本提示一同輸入到STDiT模型中,生成去噪后的特征,最終通過VAE解碼器解碼得到視頻。
          Open-Sora

        Open-Sora的復現方案

        Open-Sora的訓練復現方案借鑒了Stable Video Diffusion(SVD)的工作,分為三個階段:大規模圖像預訓練、大規模視頻預訓練以及高質量視頻數據微調。通過這三個階段的訓練,Open-Sora模型能夠逐步提升視頻生成能力,從基礎的圖像理解到復雜的視頻內容生成,最終實現高質量的視頻生成效果。

        第一階段:大規模圖像預訓練

        在第一階段,模型通過大規模圖像數據集進行預訓練,以建立對圖像內容的基本理解。此階段旨在利用現有的高質量圖像生成模型(如Stable Diffusion)作為基礎,初始化視頻生成模型的權重。通過這種方式,模型能夠從圖像數據中學習到豐富的視覺特征,為后續的視頻預訓練奠定堅實基礎。

        第二階段:大規模視頻預訓練

        第二階段專注于大規模視頻數據的預訓練,旨在增強模型對視頻時間序列的理解。此階段通過大量視頻數據訓練,以學習視頻中的時序關系和動態變化。為了提高模型的泛化能力,需要確保視頻題材的多樣性。此外,模型在此階段將加入時序注意力模塊,以更好地處理時間序列數據。此階段的訓練將在第一階段的基礎上進行,使用前一階段的權重作為起點。

        第三階段:高質量視頻數據微調

        最后階段是對模型進行微調,使用高質量的視頻數據以進一步提升生成視頻的質量和真實感。在此階段,雖然使用的視頻數據量可能較少,但視頻的時長、分辨率和質量都更高。微調過程幫助模型捕捉更細致和逼真的視頻內容,從而生成更符合用戶期望的視頻。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 97热久久免费频精品99| 波多野结衣免费视频观看| 亚洲色成人中文字幕网站| 97亚洲熟妇自偷自拍另类图片| 免费人成大片在线观看播放| 久久久久久AV无码免费网站| 亚洲av无码国产精品色午夜字幕 | 91九色视频无限观看免费| 嫩草视频在线免费观看| 亚洲精品国产suv一区88| 四虎影视精品永久免费网站| 亚洲A∨无码一区二区三区| 国产精品亚洲专区无码牛牛| 日本特黄特色免费大片| 久久久久久亚洲AV无码专区| 最近2019免费中文字幕6| 亚洲人成人网站色www| 久久中文字幕免费视频| 91午夜精品亚洲一区二区三区| 岛国片在线免费观看| 人成免费在线视频| 色播亚洲视频在线观看| 国内精品免费视频自在线| 午夜免费国产体验区免费的| 亚洲国产精品一区第二页| av成人免费电影| 久久精品国产亚洲AV香蕉| 免费理论片51人人看电影| 久久久精品国产亚洲成人满18免费网站 | 国产一区二区免费在线| 国产精品免费视频观看拍拍| 亚洲av激情无码专区在线播放| 午夜性色一区二区三区免费不卡视频| 亚洲美国产亚洲AV| 99在线视频免费观看视频 | 亚洲一区二区三区亚瑟 | 国产精品免费无遮挡无码永久视频| 日产国产精品亚洲系列| 亚洲中文字幕无码久久2020| 亚洲国产综合无码一区二区二三区 | 免费观看国产精品|