騰訊Sora開(kāi)源引爆創(chuàng)意浪潮,官方暗示下月推出驚艷圖生視頻!
網(wǎng)友:最強(qiáng)開(kāi)源視頻模型
原標(biāo)題:騰訊版Sora開(kāi)源后,被提速8倍!官方點(diǎn)贊并預(yù)告:下月上新圖生視頻
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):2363字
FastHunyuan:性的視頻生成模型
近日,來(lái)自加州大學(xué)圣地亞哥分校(UCSD)的Hao AI實(shí)驗(yàn)室推出了全新的混元視頻模型——FastHunyuan。這一模型在視頻生成速度和效果上實(shí)現(xiàn)了顯著提升,成為業(yè)界關(guān)注的焦點(diǎn)。
1. 提速與效果提升
FastHunyuan的最大亮點(diǎn)在于其處理速度的飛躍。新模型僅需1分鐘即可生成5秒長(zhǎng)的視頻,相較于之前的模型提速了8倍,生成步驟從50步減少至6步。此外,生成的視頻在畫(huà)面細(xì)節(jié)上也更加逼真,尤其在衣物、水果和山峰等細(xì)節(jié)表現(xiàn)上都有顯著改善。
2. 技術(shù)原理
FastHunyuan的技術(shù)基礎(chǔ)是全新的視頻DiT蒸餾配方,采用了階段一致性模型(PCM)。研究團(tuán)隊(duì)經(jīng)過(guò)多次嘗試,最終選擇了單階段設(shè)置,以保持與原始PCM模型的配置相似。同時(shí),他們利用OpenSoraPlan中的MixKit數(shù)據(jù)集進(jìn)行了蒸餾,并在訓(xùn)練過(guò)程中進(jìn)行了數(shù)據(jù)預(yù)處理,以優(yōu)化文本嵌入和VAE潛在變量的生成。
3. 可擴(kuò)展性與硬件要求
在推理階段,F(xiàn)astHunyuan支持可擴(kuò)展訓(xùn)練,用戶可通過(guò)FSDP、序列并行和選擇性激活檢查點(diǎn)等方式進(jìn)行操作。模型的最低硬件要求為40 GB GPU內(nèi)存,并推薦使用80GB內(nèi)存的GPU進(jìn)行最佳性能體驗(yàn)。
4. 微調(diào)方式與未來(lái)規(guī)劃
FastHunyuan提供全微調(diào)和LoRA微調(diào)兩種方式,用戶可根據(jù)自身硬件條件選擇適合的微調(diào)方案。未來(lái),團(tuán)隊(duì)計(jì)劃添加更多蒸餾方法,支持更多模型,并進(jìn)行代碼更新,以提升模型的加載和保存速度。
5. 圖像到視頻功能的展望
除了加速模型,F(xiàn)astHunyuan團(tuán)隊(duì)還預(yù)告了備受期待的圖像到視頻生成功能,最快將在下個(gè)月上線。這一新功能的推出無(wú)疑將進(jìn)一步擴(kuò)展用戶的創(chuàng)作可能性。
想要了解更多信息,用戶可以訪問(wèn)FastHunyuan的GitHub和Hugging Face頁(yè)面,獲取最新的模型和文檔。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破