騰訊版Sora開源提速8倍!官方預(yù)告下月驚艷新圖生視頻來襲!
網(wǎng)友:最強開源視頻模型

原標題:騰訊版Sora開源后,被提速8倍!官方點贊并預(yù)告:下月上新圖生視頻
文章來源:量子位
內(nèi)容字數(shù):2363字
FastHunyuan模型介紹
最近,F(xiàn)astHunyuan混元視頻模型的發(fā)布引起了廣泛關(guān)注。該模型的速度提升達到8倍,僅需1分鐘即可生成5秒長的視頻,顯著縮短了生成過程的步數(shù),從原先的50步減少到6步,同時畫面細節(jié)也更加逼真。
速度與效果的對比
與普通速度的混元模型相比,F(xiàn)astHunyuan在相同的時間內(nèi)可以生成8條視頻,這一效率的提升使得視頻制作更加高效。此外,F(xiàn)astHunyuan與Sora模型的效果對比顯示,前者在物理細節(jié)理解方面表現(xiàn)更優(yōu),尤其在處理諸如檸檬取用等細節(jié)時,F(xiàn)astHunyuan展現(xiàn)出了更強的能力。
技術(shù)原理
FastHunyuan的技術(shù)創(chuàng)新主要源于其全新的視頻DiT蒸餾配方,基于階段一致性模型(PCM)。團隊發(fā)現(xiàn)多階段蒸餾效果不佳,最終選擇了與原始PCM配置類似的單階段設(shè)置。同時,使用MixKit數(shù)據(jù)集進行蒸餾,并在訓練前對數(shù)據(jù)進行了預(yù)處理以優(yōu)化效果。
模型訓練與硬件要求
在推理階段,F(xiàn)astHunyuan支持通過FSDP、序列并行及選擇性激活檢查點進行可擴展訓練,能夠在64個GPU上近乎線性擴展。最低硬件要求為40GB GPU內(nèi)存,另外支持LoRA微調(diào)和全微調(diào)兩種方式,適應(yīng)不同用戶的硬件條件。
未來發(fā)展計劃
FastHunyuan的v0.1版本于2024年12月17日發(fā)布,未來計劃包括增加更多蒸餾方法、支持更多模型以及代碼更新等。同時,混元團隊還預(yù)告了備受期待的圖像到視頻生成功能,預(yù)計在1月份發(fā)布。
獲取資源
FastHunyuan的代碼已開源,用戶可以通過以下鏈接獲取相關(guān)資源:
GitHub: https://github.com/hao-ai-lab/FastVideo
HuggingFace: https://huggingface.co/FastVideo/FastHunyuan
此次模型的革新無疑為視頻生成領(lǐng)域帶來了新的可能,值得持續(xù)關(guān)注。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號