網友:最強開源視頻模型
FastHunyuan:性的視頻生成模型
近日,來自加州大學圣地亞哥分校(UCSD)的Hao AI實驗室推出了全新的混元視頻模型——FastHunyuan。這一模型在視頻生成速度和效果上實現了顯著提升,成為業界關注的焦點。
1. 提速與效果提升
FastHunyuan的最大亮點在于其處理速度的飛躍。新模型僅需1分鐘即可生成5秒長的視頻,相較于之前的模型提速了8倍,生成步驟從50步減少至6步。此外,生成的視頻在畫面細節上也更加逼真,尤其在衣物、水果和山峰等細節表現上都有顯著改善。
2. 技術原理
FastHunyuan的技術基礎是全新的視頻DiT蒸餾配方,采用了階段一致性模型(PCM)。研究團隊經過多次嘗試,最終選擇了單階段設置,以保持與原始PCM模型的配置相似。同時,他們利用OpenSoraPlan中的MixKit數據集進行了蒸餾,并在訓練過程中進行了數據預處理,以優化文本嵌入和VAE潛在變量的生成。
3. 可擴展性與硬件要求
在推理階段,FastHunyuan支持可擴展訓練,用戶可通過FSDP、序列并行和選擇性激活檢查點等方式進行操作。模型的最低硬件要求為40 GB GPU內存,并推薦使用80GB內存的GPU進行最佳性能體驗。
4. 微調方式與未來規劃
FastHunyuan提供全微調和LoRA微調兩種方式,用戶可根據自身硬件條件選擇適合的微調方案。未來,團隊計劃添加更多蒸餾方法,支持更多模型,并進行代碼更新,以提升模型的加載和保存速度。
5. 圖像到視頻功能的展望
除了加速模型,FastHunyuan團隊還預告了備受期待的圖像到視頻生成功能,最快將在下個月上線。這一新功能的推出無疑將進一步擴展用戶的創作可能性。
想要了解更多信息,用戶可以訪問FastHunyuan的GitHub和Hugging Face頁面,獲取最新的模型和文檔。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...